Meta affirme avoir mis au point l’IA générative d’images la plus sophistiquée au monde. Tout en nécessitant moins de puissance de calcul, ce modèle d’IA se veut plus performant que les solutions concurrentes, comme Midjourney ou Dall-E.
Meta vient de lever le voile sur CM3Leon, un nouveau modèle d’IA. En miroir de Midjourney, Adobe Firefly, Stable Diffusion ou Dall-E, le modèle est capable de générer des images sur base d’un court texte.
D’après Meta, sa création est plus efficace que les solutions concurrentes tout en nécessitant moins de puissance de calcul. Malgré cette puissance de calcul limitée, CM3Leon bénéficie d’un total de 7 milliards de paramètres, soit le double de Dall-E, le générateur d’OpenAI.
« Avec les capacités de CM3Leon, les outils de génération d’images peuvent produire des images plus cohérentes qui correspondent mieux à la requête », déclare Meta, assurant que l’IA nécessite cinq fois moins de puissance de calcul que la concurrence.
À lire aussi : Google DeepMind promet d’écraser ChatGPT avec le modèle d’IA le plus avancé au monde
Meta affirme avoir révolutionné les générateurs d’images
Pour concevoir l’IA, les chercheurs de Meta ont opté pour une approche différente des autres entreprises engagées dans la course à l’intelligence artificielle. Des outils comme Dall-E ou Stable Diffusion s’appuient en effet sur un procédé appelé « la diffusion » pour générer des images. Ce processus consiste à soustraire progressivement des éléments jusqu’à parvenir à une image proche de la requête de l’utilisateur.
Malheureusement, cette approche demande une quantité importante de puissance de calcul. Pour fournir celle-ci, il faut impérativement alimenter l’IA avec de puissants ordinateurs, ce qui consomme de l’électricité. De plus, le processus est plutôt lent. Il n’est pas possible de générer des images en continu en temps réel.
C’est pourquoi Meta s’est tourné vers un autre mécanisme de génération d’images, appelé « l’attention ». L’IA va évaluer la pertinence des données communiquées, ce qui permet de gagner énormément de temps et d’énergie lors de la création d’une image. Le processus comporte aussi une étape dite de réglage. Lors de cette phase, la compréhension des instructions est affinée.
CM3Leon se distingue par ailleurs des autres générateurs d’images par une seconde fonctionnalité. L’IA est également en mesure de légender une image. Si vous donnez une photo au modèle, celui-ci sera capable de détailler ce qu’elle représente. Comme GPT-4 ou PaLM 2, CM3Leon est une IA multimodale. Elle peut traiter plusieurs sources de données, comme du texte et des images.
Des images libres de droits
Meta précise aussi que CM3Leon a besoin de moins de données d’entraînement pour pouvoir fonctionner. Pour éviter d’éventuels problèmes, le géant californien a exclusivement entrainé l’IA avec des images libres de droits disponibles sur Shutterstock. Cette précaution permet « d’éviter les problèmes liés à la propriété et à l’attribution des images, sans sacrifier les performances », explique Meta.
Adobe a misé sur une méthode similaire en mettant au point Firefly, l’IA générative de Photoshop. L’éditeur de logiciels n’a utilisé que des images issues des bases de données d’Adobe Stock, des images libres de droits et des images sous licence libre, pour entraîner le modèle d’IA.
Meta n’en est pas à son coup d’essai. Ces derniers mois, le groupe de Menlo Park a dévoilé plusieurs modèles d’IA destinés au monde de la recherche. Meta a notamment mis à disposition Voicebox, une intelligence artificielle capable d’imiter une voix humaine, ou encore MusicGen, un outil qui peut produire une musique à la demande.
En parallèle, l’entreprise de Mark Zuckerberg a dévoilé LLaMA, pour Large Language Model Meta AI, un modèle open source qui se présente comme une alternative à GPT. La firme ambitionne aussi de proposer un modèle d’IA qui apprend un peu à la manière d’une intelligence humaine. Pour le moment, Meta n’a pas précisé quand CM3Leon sera accessible aux utilisateurs.
Source :
Meta