LAION

Informasi tambahan
Situs web	open-assistant.io
Blog	Blog oficial

OpenAssistant
OpenAssistant
	Cuplikan layar dari portal web pengumpulan data
Tipe	organisasi nirlaba
Versi pertama	15 April 2023; 19 bulan lalu
Genre	Model Bahasa Besar; Transformer Pra-latih Generatif; Chatbot;
Lisensi	Lisensi Apache 2.0
Situs web
Informasi tambahan
Situs web	open-assistant.io
Blog	Blog oficial
	Sunting di Wikidata • Sunting kotak info • L • BBantuan penggunaan templat ini

LAION
Jenis	Lembaga penelitian nirlaba
Industri	Kecerdasan buatan
Pendiri	Christoph Schuhmann; Jenia Jitsev; Richard Vencu; Robert Kaczmarczyk; Theo Coombes; Mehdi Cherti; Aarush Katta; Jan Ebert;
Situs web	laion.ai

LAION (singkatan dari Large-scale Artificial Intelligence Open Network) adalah sebuah lembaga nirlaba Jerman yang membuat model dan kumpulan data kecerdasan buatan dengan sumber terbuka.^[1] Lembaga ini dikenal karena merilis kumpulan data besar berisikan gambar dan deskripsi yang diambil dari web yang telah digunakan untuk melatih model teks-ke-gambar, seperti Stable Diffusion dan Imagen.^[2]^[3]

Pada Februari 2023, LAION dicantumkan dalam gugatan Getty Images terhadap Stable Diffusion.^[4] Pada April 2023, LAION digugat oleh seorang fotografer Jerman yang ingin gambarnya dicopot dari set latihan.^[5]

Pada 15 April 2023, LAION dan kontributornya merilis ke publik sebuah asisten chatbot sumber terbuka OpenAssistant.

Kumpulan data gambar

LAION telah merilis sejumlah kumpulan data besar berupa pasangan gambar-deskripsi yang telah digunakan oleh para peneliti kecerdasan buatan. Datanya bersumber dari Common Crawl, sebuah kumpulan data yang diambil dari laman web. Pengembang menelusuri data untuk mencari tag <img> dan memperlakukan atribut alt sebagai deskripsi. Mereka menggunakan CLIP untuk mengidentifikasi dan membuang gambar yang isinya tidak sesuai dengan deskripsi.^[6] LAION tidak menghost isi gambar yang diambil, kumpulan data berisikan banyak URL yang terjalin ke gambar, peneliti harus mengunduhnya sendiri.^[7]

Kumpulan data terawal, LAION-400M, dirilis pada Agustus 2021 dan berisikan 400 juta pasangan gambar-deskripsi. Pasangan ini diekstrak dari laman web secara acak yang diambil oleh Common Crawl dari tahun 2014 sampai tahun 2021.^[8] Hal ini adalah sebuah upaya untuk mereka ulang proses yang digunakan oleh OpenAI untuk mengumpulkan 400 juta pasangan gambar-deskripsi yang digunakan untuk melatih model CLIP - perusahaan ini memilih untuk membuka sumber kode dan bobotnya, tetapi membuka sumber untuk kumpulan data latihnya.^[6] Imagen, sebuah model teks-ke-gambar yang diumumkan oleh Google Brain pada tahun 2022, dilatih pada LAION-400M dengan kombinasi berupa kumpulan data internal.^[9]

Sebuah penerus dengan lebih dari 5 juta pasangan, LAION-5B, dirilis pada Maret 2022.^[10] Saat dirilis, ini adalah kumpulan data berisikan pasangan gambar-deskripsi dengan sumber terbuka terbesar yang pernah ada.^[6] Pembuatannya didanai oleh Doodlebot, Hugging Face, dan Stability AI, perusahaan dibalik model teks-ke-gambar Stable Diffusion, yang menggunakannya sebagai bahan latih.^[11]

OpenAssistant

OpenAssistant adalah sebuah asisten chatbot berbasis kecerdasan buatan dengan sumber terbuka yang memahami tugas, bisa berinteraksi dengan sistem pihak ketiga dan mengambil informasi secara dinamis untuk bekerja. Proyek ini dikembangkan oleh sebuah kelompok sukarelawan yang berkolaborasi dengan LAION. Salah satu tujuan dari pengembangan adalah memberikan akses bebas terhadap model bahasa besar yang dapat berjalan pada perangkat keras tipe konsumen.^[12] Proyek ini dibekingi oleh sebuah penggalangan dana yang berlangsung di seluruh dunia dengan melibatkan 13.500 sukarelawan yang telah membuat 600 ribu titik data.^[13]^[14]

Referensi

^ "About". LAION.ai. Diakses tanggal 26 September 2022.
^ Edwards, Benj (15 September 2022). "Have AI image generators assimilated your art? New tool lets you check". Ars Technica.
^ Newman, Marissa; Cantrill, Aggi (24 April 2023). "The Future of AI Relies on a High School Teacher's Free Database". Bloomberg News (dalam bahasa Inggris). Diakses tanggal 24 April 2023.
^ "Getty Images (US), Inc. v. Stability AI, Inc., 1:23-cv-00135". CourtListener (dalam bahasa Inggris). Diakses tanggal 2023-02-08.
^ "A Photographer Tried to Get His Photos Removed from an AI Dataset. He Got an Invoice Instead". Vice (dalam bahasa Inggris). Diakses tanggal 2023-05-04.
^ ^a ^b ^c Alford, Anthony (17 May 2022). "LAION Releases Five Billion Image-Text Pair Dataset LAION-5B". InfoQ.
^ Edwards, Benj (21 September 2022). "Artist finds private medical record photos in popular AI training data set". Ars Technica.
^ Schuhmann, Christoph (8 August 2021). "LAION-400-Million Open Dataset". LAION blog. Diakses tanggal 26 September 2022.
^ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Kamyar Seyed Ghasemipour, Seyed; Karagol Ayan, Burcu et al. (23 May 2022). "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding". arΧiv:2205.11487 [cs.CV].
^ Beaumont, Romain (3 March 2022). "LAION-5B: A New Era of Open Large-Scale Multi-Modal Datasets". LAION blog.
^ Wiggers, Kyle (12 August 2022). "This startup is setting a DALL-E 2-like AI free, consequences be damned". TechCrunch.
^ Open-Assistant, LAION AI, 2023-03-09, diakses tanggal 2023-03-09
^ Kesalahan pengutipan: Tag <ref> tidak sah; tidak ditemukan teks untuk ref bernama :0
^ "Open Assistant: Explore the Possibilities of Open and Collaborative Chatbot Development". KDnuggets (dalam bahasa Inggris). Diakses tanggal 2023-05-05.

[About-1] "About". LAION.ai. Diakses tanggal 26 September 2022.

[Ars-Trained-2] Edwards, Benj (15 September 2022). "Have AI image generators assimilated your art? New tool lets you check". Ars Technica.

[BB_teacher-3] Newman, Marissa; Cantrill, Aggi (24 April 2023). "The Future of AI Relies on a High School Teacher's Free Database". Bloomberg News (dalam bahasa Inggris). Diakses tanggal 24 April 2023.

[4] "Getty Images (US), Inc. v. Stability AI, Inc., 1:23-cv-00135". CourtListener (dalam bahasa Inggris). Diakses tanggal 2023-02-08.

[5] "A Photographer Tried to Get His Photos Removed from an AI Dataset. He Got an Invoice Instead". Vice (dalam bahasa Inggris). Diakses tanggal 2023-05-04.

[Infoq-5b-6] Alford, Anthony (17 May 2022). "LAION Releases Five Billion Image-Text Pair Dataset LAION-5B". InfoQ.

[Ars-medical-7] Edwards, Benj (21 September 2022). "Artist finds private medical record photos in popular AI training data set". Ars Technica.

[Laion-400m-blog-8] Schuhmann, Christoph (8 August 2021). "LAION-400-Million Open Dataset". LAION blog. Diakses tanggal 26 September 2022.

[imagen-paper-9] Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Kamyar Seyed Ghasemipour, Seyed; Karagol Ayan, Burcu et al. (23 May 2022). "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding". arΧiv:2205.11487 [cs.CV].

[Laion-5b-blog-10] Beaumont, Romain (3 March 2022). "LAION-5B: A New Era of Open Large-Scale Multi-Modal Datasets". LAION blog.

[tc-sai-11] Wiggers, Kyle (12 August 2022). "This startup is setting a DALL-E 2-like AI free, consequences be damned". TechCrunch.

[12] Open-Assistant, LAION AI, 2023-03-09, diakses tanggal 2023-03-09

[:0-13] Kesalahan pengutipan: Tag <ref> tidak sah; tidak ditemukan teks untuk ref bernama :0

[14] "Open Assistant: Explore the Possibilities of Open and Collaborative Chatbot Development". KDnuggets (dalam bahasa Inggris). Diakses tanggal 2023-05-05.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]