DALL-EDALL-E
Image générée par DALL-E à partir de la consigne suivante « Ours polaire dans le désert » (donnée en anglais).
Chronologie des versions DALL-E (ou DALL·E) est un programme d'intelligence artificielle générative, capable de créer des images à partir de descriptions textuelles. Son nom est un mot-valise évoquant à la fois le robot de Pixar WALL-E et le peintre Salvador Dalí[2],[3]. Microsoft a implémenté le modèle dans l'outil Image Creator de Bing et prévoit de l'implémenter dans son application Designer[4]. DALL-E utilise une version à 12 milliards de paramètres[3] du modèle de langage GPT-3[1] pour interpréter les entrées (commandes) en langage naturel (telles que par exemple : « un sac à main en cuir vert en forme de pentagone » ou « une vue isométrique d'un capybara triste »), et générer les images demandées[2]. Il peut créer des images d'objets réalistes (« un vitrail avec l'image d'une fraise bleue »), mais aussi des objets qui n'existent pas dans la réalité (ex. : « un cube avec la texture d'un porc-épic »)[5],[6],[7]. DALL-E a été cité comme le logiciel existant faisant le plus preuve de créativité[8]. SpécificitéDepuis les années 2000, de nombreux réseaux de neurones ont pu générer des images réalistes[2]. La spécificité de DALL-E est de pouvoir les générer à partir d'invites en langage naturel, qu'il « comprend », et « il échoue rarement »[2]. Code sourceOpenAI n'a pas publié de code source pour l'un ou l'autre modèle, bien qu'une « démo contrôlée » de DALL-E soit disponible sur le site Web d'OpenAI, où la sortie d'une sélection limitée d'exemples d'invites peut être visualisée[3]. Des alternatives open source, formées sur de plus petites quantités de données, comme DALL-E Mini, ont été publiées par d'autres. Selon la MIT Technology Review, l'un des principaux objectifs d'OpenAI était de « donner aux modèles de langage une meilleure compréhension des concepts quotidiens que les humains utilisent pour donner un sens aux choses »[9]. HistoireDALL-E a été révélé par OpenAI le [9]. En 2020, OpenAI constate que « tout comme un grand modèle de transformeur entraîné sur le langage peut générer du texte cohérent, le même modèle exact entraîné sur des séquences de pixels peut générer une image cohérente »[10]. L'image GPT a montré que le même type de réseau de neurones peut aussi être utilisé pour générer des images avec une haute fidélité. Selon OpenAi (janvier 2021) : « la manipulation de concepts visuels par le langage est désormais à portée de main »[10]. En , OpenAI a annoncé DALL-E 2 (affirmant qu'il pouvait produire des images photoréalistes à partir de descriptions textuelles), ainsi qu'un éditeur permettant de simples modifications de la sortie. Lors de l'annonce, le logiciel était encore en phase de recherche, avec un accès limité à des utilisateurs bêta présélectionnés. Le modèle pouvait encore faire de graves erreurs, y compris des erreurs qu'aucun humain ne ferait[11]. DALL-E 2 a été décrit comme un modèle qui « peut créer des images et des œuvres d'art originales et réalistes à partir d'une description textuelle. Il peut combiner des concepts, des attributs et des styles »[12]. Selon Stable Diffusion, DALL-E créait déjà environ deux millions d’images par jour lors de la phase tests[13]. Quand la plate-forme a atteint un million d’utilisateurs (mi-septembre 2022) Emad Mostaque a estimé que le seuil d'un milliard d’images par jour devrait être atteint « plutôt tôt que tard », surtout quand la possibilité de faire des animations sera activée[13]. Peter Welinder, vice-président des produits et des partenariats d’OpenAI, a estimé lors du MIT Technology Review en juillet 2022 que DALL-E pourrait même un jour prochain dépasser ChatGPT 3 en intérêt[13]. Une concurrence existe ou émerge, avec notamment DALL-E Mini, puis Craiyon (générateur d’images de moindre qualité mais gratuit) ou Midjourney et Stable Diffusion (qui sont eux de meilleure qualité). Google développe aussi, secrètement Imagen[13]. On s'attend à ce que l'art assité par intelligence artificielle croisse très rapidement en volume et en créativité[13]. CLIPDALL-E a été développé et annoncé au public en collaboration avec CLIP (Contrastive Language-Image Pre-training)[9]. CLIP est un modèle à part entière dont le rôle est de « comprendre et hiérarchiser » sa production[2]. Les images générées par DALL-E sont organisées par CLIP, qui présente les images de la plus haute qualité pour une invite donnée[9]. CLIP est un système de reconnaissance d'images[14] qui a été entrainé à comprendre et classer ces images[2] à partir de plus de 400 millions de paires d'images et de texte[3] extraits d'Internet (plutôt que sur un ensemble de données organisé d'images étiquetées comme ImageNet)[9]. CLIP associe les images à des légendes entières[9]. CLIP a été entraîné pour prédire quelle légende (parmi une « sélection aléatoire » de 32 768 légendes possibles) était la plus appropriée pour une image, lui permettant ensuite d'identifier des objets dans des images en dehors de son ensemble de formation[9]. ArchitectureLe modèle baptisé Generative Pre-trained Transformer (GPT) a d'abord été développé par OpenAI, en 2018[15][réf. non conforme], en utilisant l'architecture Transformeur. La première itération, GPT, a été mise à l'échelle pour produire GPT-2 en 2019[16] ; et en 2020, il a été de nouveau mis à l'échelle pour produire GPT-3, avec 175 milliards de paramètres[3]. Le modèle de DALL-E est une implémentation multimodale de GPT-3[17] avec 12 milliards de paramètres[3] qui « échange du texte contre des pixels », entraînés sur des paires texte-image provenant d'Internet[9]. Il utilise l'apprentissage en mode zero-shot (en) (Zero-shot learning : c'est-à-dire sans recours à des données d'apprentissage préalable[18] pour générer une image à partir de la description et des indices qui lui sont directement fournis en consigne[19]). DALL-E génère plusieurs images en réponse aux invites. PerformanceDALL-E est capable de générer des images dans des styles variés, allant de l'imagerie photoréaliste[3] aux peintures et emoji. Il peut également « manipuler et réorganiser » des objets dans ses images[3]. Une capacité notée par ses créateurs était le placement correct des éléments de conception dans de nouvelles compositions sans instruction explicite : « Par exemple, lorsqu'on lui demande de dessiner un radis daikon qui se mouche, sirote un café au lait ou monte sur un monocycle, DALL·E dessine souvent le mouchoir, mains et pieds à des endroits plausibles[21] ». Alors que DALL-E présentait une grande variété de compétences et de capacités, lors de la sortie de sa démo publique, la plupart des reportages se sont concentrés sur un petit sous-ensemble d'images de sortie « surréalistes »[9] ou « excentriques »[22]. Plus précisément, la sortie de DALL-E pour la requête « une illustration d'un bébé radis daikon dans un tutu promenant un chien » a été mentionnée dans des articles de Input[23], NBC[24], Nature[25], et d'autres publications[3],[26],[27]. Sa production pour « un fauteuil en forme d'avocat » a aussi été notée[9],[28]. Des capacités émergentes apparaissent parfois chez les logiciels basés sur l'apprentissage automatique :
DALL-E a été décrit comme « remarquablement robuste à de tels changements » et fiable dans la production d'images pour une grande variété de descriptions arbitraires[2]. Sam Shead, journaliste pour CNBC, a qualifié ses images de « décalées » et a cité Neil Lawrence, professeur d'apprentissage automatique à l'université de Cambridge, qui l'a décrit comme une « démonstration inspirante de la capacité de ces modèles à stocker des informations sur notre monde et généraliser d'une manière que les humains trouvent très naturelle ». Shead a aussi cité Mark Riedl (professeur agrégé à la Georgia Tech School of Interactive Computing). Selon ce dernier, DALL-E a montré qu'il était capable de « mélanger de manière cohérente des concepts », ce qui est un élément clé de la créativité humaine. La démo de DALL-E a été remarquable pour produire des illustrations beaucoup plus cohérentes que les autres systèmes Text2Image vus ces dernières années[22]. Riedl, à la BBC s'est aussi dit « impressionné par ce que le système pouvait faire »[28]. Aspects éthiques et moraux, et impacts sociétauxLes modèles de langage comme GPT-3 ont un potentiel bénéfique pour la société (ex. : auto-complétion de code et d'écriture, assistance grammaticale, génération de narration de jeu, amélioration des réponses des moteurs de recherche et de la réponse à des questions…), mais les chercheurs qui les étudient sont également conscients qu'« ils ont aussi des applications potentiellement dangereuses », et que leur demande en capacité de calcul intensif les rend, au moins au stade de l'apprentissage, très consommateurs d'énergie (et donc contributeurs au réchauffement climatique)[32]. Ainsi, les modèles de langage améliorés (comme GPT-3) améliorent grandement la qualité des textes et des images artificiellement générés, et disposent d'une adaptabilité bien plus grande que les modèles antérieurs, mais avec comme conséquence que distinguer le texte et les images synthétiques du texte écrit par l'homme et d'images réelles devient de plus en plus difficile, voire impossible[32]. Ces modèles linguistiques « intelligents » ont un fort potentiel d'applications bénéfiques, mais aussi de conséquences ou d'applications néfastes[32]. C'est pourquoi avant d'éventuellement largement diffuser ce type d'outil, des chercheurs étudient leur efficacité énergétique, leurs méfaits potentiels (pour pouvoir les atténuer). En particulier ils étudient les problèmes de partialité, d'équité et de représentation, problèmes qui peuvent apparaitre spontanément en raison de « contamination des données » notamment ; GPT-3 peut en effet intégrer :
Le scandale Facebook-Cambridge Analytica[33],[34]/AggregateIQ et l'utilisation du logiciel Ripon[35] qui semblent avoir permis l'élection de Donald Trump[34],[36], puis le Brexit[37], et la manipulation frauduleuse d'une vingtaine d'élections dans le monde ont montré la réalité d'un autre risque : celui d'utilisations abusives délibérées, par exemple pour la désinformation (de la publicité à la propagande politique…), l'hameçonnage, l'abus des procédures légales et gouvernementales, la rédaction frauduleuse d'articles, d'ouvrages ou d'essais universitaires, ou d'œuvres d'art ; l'ingénierie sociale[32]. Au début des années 2020, OpenAI et divers chercheurs cherchent donc aussi à « analyser les impacts sociétaux » que peut générer DALL-E et/ou le programme GPT-3, par exemple s'ils sont détournés pour produire de faux textes et de fausses images ou vidéo pouvant donner l'impression d'une vérité ou au moins d'une parfaite plausibilité et cohérence[38] et « le potentiel de biais » de ce logiciel avant de le publier pour un usage général[22]. Ces intelligences artificielles sont particulièrement susceptibles d'être mal utilisées et/ou sciemment détournées pour des usages illégaux, non-éthiques et sociétalement dangereux, on cherche à faire en sorte qu'ils soient en mesure de se défendre de tels usages[32][réf. non conforme]. Dans le monde, plusieurs Partenariats sur l'IA visent à traiter ces sujets, de manière plus ou moins pluridisciplinaire et collaborative, dont sous l'égide de l'OCDE. Consommation d'énergie et contribution à l'effet de serreDans un monde aux ressources finies, et dans le contexte du réchauffement climatique, le rendement énergétique et la soutenabilité des intelligences artificielles deviennent un enjeu majeur[32]. Le modèle de langage amélioré sous-jacent, ainsi que les outils de génération d'images doivent en effet être entrainés. Ceci se fait généralement à partir du Web et nécessite une énorme puissance de calcul, et est donc énergivore : à titre d'exemple, pour former le GPT-3 à 175 milliards de paramètres utilisé par DALL-E, il a fallu « plusieurs milliers de pétaflops-jours de calcul pour son temps de pré-formation (contre quelques dizaines de pétaflops-jours pour un modèle GPT-2 à 1,5 milliard de paramètres) »[32]. Des modèles comme GPT-3 sont cependant ensuite étonnamment efficaces une fois entraînés : même avec le GPT-3 à 175 milliards de paramètres complet, la génération de 100 pages de contenu à partir d'un modèle formé peut alors ne consommer qu'environ 0,4 kWh, ou soit quelques centimes en coût énergétique[32]. L'impact ou la dette carbone du système sera justifiée par l'usage ou des messages qu'on en fera (fonctions gadgets, jeux/cinéma, publicité, ou usages pédagogiques, scientifiques, etc.). Des progrès algorithmiques associés à des techniques de « distillation de modèles » et des usages collaboratifs permettent d'ensuite diminuer le coût de ces modèles dans des contextes appropriés[32], mais toujours avec le risque d'effet rebond bien connu des économistes. Notes et références
Voir aussiArticles connexes
Liens externes
|