I-JEPA, l’IA de génération d’image de Meta, est open source

Meta vient de présenter le premier modèle d’IA basé sur un élément clé de la vision de Yann LeCun, scientifique en chef de l’entreprise. Il s’agit d’une intelligence à la Midjourney capable de créer des images réalistes. Particularité : ce travail est publié en open source.

Le modèle présenté cette semaine est I-JEPA, soit Image Joint Embedding Predictive Architecture. Il apprend en créant un modèle interne du monde extérieur, qui compare des représentations abstraites d’images (plutôt que de comparer les pixels eux-mêmes).

L’idée derrière I-JEPA est de prédire les informations manquantes dans une représentation abstraite qui est plus proche de la compréhension générale que les gens ont. Contrairement à d’autres IA (dont Midjourney), I-JEPA utilise des cibles de prédiction abstraites pour lesquelles les détails inutiles au niveau du pixel sont potentiellement éliminés. C’est en quelque sorte un premier pas vers une architecture prédictive à large capacité d’intégration des articulations.

Meta explique avoir entraîné un modèle de transformateur visuel de 632 millions de paramètres à l’aide de 16 GPU A100 en moins de 72 heures : « Il atteint des performances de pointe pour la classification de plans bas sur ImageNet, avec seulement 12 exemples étiquetés par classe. »

L’article sur I-JEPA sera présenté à CVPR 2023 la semaine prochaine. Il est possible de suivre le développement en open source sur Github.