A DALL-E (stilizálva: DALL·E) és a DALL-E 2gépi tanulómesterséges intelligenciák, amiket az OpenAI készített és képeket hoz létre egy szöveges leírás alapján. A DALL-E-t 2021 januárjában jelentette be az OpenAI és a GPT-3 egy verzióját használjak képek készítésére.[1] 2022 áprilisában az OpenAI bejelentette a DALL-E 2 kiadását, amivel az volt a céljuk, hogy valóságszerűbb képeket tudjanak generálni, jobb felbontásban.[2]
Az OpenAI nem adta ki egyik verzió forráskódját se, de részletei elérhetőek a cég hivatalos weboldalán.[1] A DALL-E 2 2022 júliusában érte el a béta fázist és 1 millió embert hívtak meg a tesztelésre.[3][4] Több imitációt is kiadtak más cégek, kisebb befektetésekkel és sokkal kevesebb adatforrással.[5][6][7]
A Generative Pre-trained Transformer (GPT) modellt az OpenAI 2018-ban hozta létre.[9] Az első kiadás alapján hozták létre a GPT-2-t 2019-ben,[10] majd a GPT-3-t 2020-ban.[11] A DALL-E modellje a GPT-3 multimodális implementációja, ami „szöveget pixelekre cserél.”[1][12] A DALL-E 2 3,5 milliárd paramétert használ, ami kevesebb, mint elődje, 12 milliárddal.[13]
A DALL-E-t a CLIP-pel (Contrastive Language-Image Pre-training) együtt fejlesztették ki és jelentették be. A CLIP egy külön model, ami 400 millió képet tud összepárosítani szöveggel.[1][14][15] A fő feladata, hogy átnézze azokat a képeket, amiket a DALL-E létrehozott és kiválasztja közülük a leginkább megfelelő végeredményeket.[8][14]
Galéria
A DALL-E (vagy DALL-E 2) által készített képek válogatása, azok leírásával
Színes II. világháborús propaganda-poszter, Wikipédiát szerkesztő madarászokról
Mű egy tehénről az 1960-as évek stílusában, ahogy elrabolják az UFO-k a középnyugaton
Egy aranybőrű nő, aki díszeket visel a fején és arany díszeket a testén, egy tóban állva
Egy nő, aki fejét kidugja egy autó ablakán, az ismeretlen jövőről gondolkozik. Tipikus MI által generált hiperrealisztikus kép.
Megzavarodott medve matek órán
Egy könyvet kezében tartó szemüveges nő almát szed egy fáról
Egy shiba inu kutya fekete garbóban és svájcisapkában
Egy űrhajós lebeg a fekete űrben, sokszínű lebegő virágok által körbevéve
↑Tamkin, Alex; Brundage, Miles; Clark, Jack; Ganguli, Deep (2021). "Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models".