Meta vient de présenter le premier modèle d’IA basé sur un élément clé de la vision de Yann LeCun, scientifique en chef de l’entreprise. Il s’agit d’une intelligence à la Midjourney capable de créer des images réalistes. Particularité : ce travail est publié en open source.
Le modèle présenté cette semaine est I-JEPA, soit Image Joint Embedding Predictive Architecture. Il apprend en créant un modèle interne du monde extérieur, qui compare des représentations abstraites d’images (plutôt que de comparer les pixels eux-mêmes).
L’idée derrière I-JEPA est de prédire les informations manquantes dans une représentation abstraite qui est plus proche de la compréhension générale que les gens ont. Contrairement à d’autres IA (dont Midjourney), I-JEPA utilise des cibles de prédiction abstraites pour lesquelles les détails inutiles au niveau du pixel sont potentiellement éliminés. C’est en quelque sorte un premier pas vers une architecture prédictive à large capacité d’intégration des articulations.
Meta explique avoir entraîné un modèle de transformateur visuel de 632 millions de paramètres à l’aide de 16 GPU A100 en moins de 72 heures : « Il atteint des performances de pointe pour la classification de plans bas sur ImageNet, avec seulement 12 exemples étiquetés par classe. »
L’article sur I-JEPA sera présenté à CVPR 2023 la semaine prochaine. Il est possible de suivre le développement en open source sur Github.