th %E0%B8%97%E0%B8%A3%E0%B8%B2%E0%B8%99%E0%B8%AA%E0%B9%8C%E0%B8%9F%E0%B8%AD%E0%B8%A3%E0%B9%8C%E0%B9%80%E0%B8%A1%E0%B8%AD%E0%B8%A3%E0%B9%8C%E0%B8%9D%E0%B8%B6%E0%B8%81%E0%B8%A5%E0%B9%88%E0%B8%A7%E0%B8%87%E0%B8%AB%E0%B8%99%E0%B9%89%E0%B8%B2%E0%B8%81%E0%B9%88%E0%B8%AD%E0%B8%81%E0%B8%B3%E0%B9%80%E0%B8%99%E0%B8%B4%E0%B8%94

ทรานส์ฟอร์เมอร์ฝึกล่วงหน้าก่อกำเนิด (generative pre-trained transformer, GPT) เป็นชุดของแบบจำลองภาษาขนาดใหญ่^[1]^[2]^[3] และยังเป็นเฟรมเวิร์กสำหรับปัญญาประดิษฐ์ช่วยสร้าง^[4]^[5] พัฒนาโดย OpenAI ได้รับการฝึกโดยใช้คลังข้อความขนาดใหญ่เพื่อให้สามารถสร้างประโยคที่เหมือนข้อความของมนุษย์

GPT ใช้เฉพาะส่วนถอดรหัสของสถาปัตยกรรมทรานส์ฟอร์เมอร์ และใช้แนวทางแบบจำลองภาษาเดียวกันกับ Universal Language Model Fine-tuning (ULMFiT)^[6] สามารถทำการปรับละเอียด เพื่อใช้ในงานการประมวลผลภาษาธรรมชาติต่าง ๆ เช่น การสร้างข้อความ การแปล และ การจำแนกเอกสาร คำว่า "ฝึกล่วงหน้า" (pre-trained) ในชื่อ หมายถึงกระบวนการฝึกเบื้องต้นโดยคลังข้อความขนาดใหญ่ ในระหว่างที่แบบจำลองเรียนรู้ที่จะคาดเดาคำที่ตามหลังแต่ละประโยค นี่เป็นรากฐานที่มั่นคงซึ่งช่วยให้แบบจำลองทำงานได้อย่างถูกต้องแม้จะมีข้อมูลจำนวนจำกัดสำหรับกระบวนแยกเฉพาะ

ประวัติศาสตร์

เมื่อวันที่ 11 มิถุนายน 2018 บริษัท OpenAI ได้เผยแพร่บทความ "Improving Language Understanding by Generative Pre-Training" ซึ่งเป็นบทความแรกที่เพยแพร่เนื้อหาเกี่ยวกับ GPT^[7]

ณ เวลานั้น แบบการประมวลผลภาษาธรรมชาติของระบบประสาทที่มีประสิทธิภาพดีที่สุดใช้การเรียนรู้แบบมีผู้สอนเป็นหลักจากข้อมูลที่มีการติดฉลากกำกับด้วยตนเองจำนวนมาก การพึ่งพาการเรียนรู้แบบมีผู้สอนไม่เพียงแต่มีข้อจำกัดตรงที่ต้องการใช้ชุดข้อมูลที่มีคำอธิบายประกอบที่ทำมาอย่างดีพอเท่านั้น แต่ยังทำให้การฝึกแบบจำลองขนาดใหญ่มากมีราคาแพงและใช้เวลานานมาก^[7]^[8] ในหลายภาษา (เช่น ภาษาสวาฮีลี และ ภาษาครีโอลเฮติ) เป็นเรื่องยากที่จะแปลและตีความโดยใช้แบบจำลองดังกล่าว เนื่องจากไม่มีข้อความสำหรับการสร้างคลังข้อมูล^[8] ในขณะที่แนวทางการเรียนรู้แบบกึ่งมีผู้สอนของ GPT ช่วยให้สามารถทำได้ โดยการฝึกประกอบด้วย 2 ขั้นตอน คือ การฝึกแบบจำลองก่อกำเนิดแบบไม่มีผู้สอนเพื่อให้ได้พารามิเตอร์น้ำหนักสำหรับแบบจำลองภาษาตั้งต้น จากนั้นจึงใช้แบบจำลองจำแนกแบบมีผู้สอนทำการปรับละเอียดให้เข้ากับงานที่ต้องการใช้^[7]

การฝึกใช้ NVIDIA Quadro P600 ทั้งหมด 8 แผ่น ใช้เวลา 30 และประสิทธิภาพการดำเนินการอยู่ที่ 33% เท่ากับ 0.96 petaFLOPS / วัน^[9]

แบบจำลองรากฐาน

ซีรีส์ GPT-n
แบบจำลอง	จำนวนพารามิเตอร์	ข้อมูลที่ใช้ฝึก	วันที่ปล่อย	จำนวนวันและทรัพยากรในการฝึก
GPT-1	117 ล้าน	BookCorpus:^[10] ข้อความ 4.5 GB จากหนังสือที่ไม่ตีพิมพ์ 7000 เล่มในหลากหลายหมวด	000000002018-06-11-000011 มิถุนายน 2018^[11]	30 วันที่ 8 P600 GPUs หรือ 1 petaFLOP/s-day.^[11]
GPT-2	1.5 พันล้าน	WebText: ข้อความ 40 GB เอกสาร 8 ล้านฉบับจากเว็บเพจ 45 หน้าบน Reddit	000000002019-02-14-000014 กุมภาพันธ์ 2019 (แบบจำกัด) และ 000000002019-11-05-00005 พฤศจิกายน 2019 (แบบเต็ม)^[12]	เปนสิบ petaflop/s-day,^[13] หรือ 1.5e21 FLOP.^[14]
GPT-3	175 พันล้าน^[15]	499 ล้านโทเค็นจากคอมมอนครอวล์ (570 GB)	000000002020-05-28-000028 พฤษภาคม 2020^[13]	3640 petaflop/s-day (Table D.1^[13]) หรือ 3.1e23 FLOP^[14]
GPT-3.5	175 พันล้าน^[15]	ไม่เปิดเผย	15 มีนาคม 2022	ไม่เปิดเผย
GPT-4	ไม่เปิดเผย แต่ประมาณกันว่า 1.7 ล้านล้าน^[16]	ไม่เปิดเผย	000000002023-03-14-000014 มีนาคม 2023	ไม่เปิดเผย ประมาณ 2.1 × 10²⁵ FLOP^[14]

อ้างอิง

↑ Haddad, Mohammed. "How does GPT-4 work and how can you start using it in ChatGPT?". www.aljazeera.com.
↑ "Generative AI: a game-changer society needs to be ready for". World Economic Forum. 9 January 2023.
↑ "The A to Z of Artificial Intelligence". Time. April 13, 2023.
↑ Hu, Luhui (November 15, 2022). "Generative AI and Future". Medium.
↑ "CSDL | IEEE Computer Society". www.computer.org.
↑ Lewis Tunstall; Leandro von Werra; Thomas Wolf (2022-08-03). 機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発. แปลโดย 中山光樹. 東京都新宿区四谷坂町: オライリー・ジャパン. p. 9. ISBN 978-4-87311-995-3.
↑ ^7.0 ^7.1 ^7.2 Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. p. 12. เก็บ (PDF)จากแหล่งเดิมเมื่อ 26 January 2021. สืบค้นเมื่อ 23 January 2021.
↑ ^8.0 ^8.1 Tsvetkov, Yulia (22 June 2017). "Opportunities and Challenges in Working with Low-Resource Languages" (PDF). Carnegie Mellon University. เก็บ (PDF)จากแหล่งเดิมเมื่อ 31 March 2020. สืบค้นเมื่อ 23 January 2021.
↑ "Improving language understanding with unsupervised learning". openai.com (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2023-03-18.
↑ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. IEEE International Conference on Computer Vision (ICCV) 2015. pp. 19–27. arXiv:1506.06724. เก็บจากแหล่งเดิมเมื่อ 2023-02-05. สืบค้นเมื่อ 2023-02-07.
↑ ^11.0 ^11.1 "Improving language understanding with unsupervised learning". openai.com (ภาษาอังกฤษแบบอเมริกัน). June 11, 2018. เก็บจากแหล่งเดิมเมื่อ 2023-03-18. สืบค้นเมื่อ 2023-03-18.
↑ Vincent, James (November 7, 2019). "OpenAI has published the text-generating AI it said was too dangerous to share". The Verge.
↑ ^13.0 ^13.1 ^13.2 Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (May 28, 2020). "Language Models are Few-Shot Learners". NeurIPS. arXiv:2005.14165v4.
↑ ^14.0 ^14.1 ^14.2 "ML input trends visualization". Epoch (ภาษาอังกฤษ). สืบค้นเมื่อ 2023-05-02.
↑ ^15.0 ^15.1 Ver Meer, Dave (June 1, 2023). "ChatGPT Statistics". NamePepper (ภาษาอังกฤษ). สืบค้นเมื่อ 2023-06-09.
↑ "GPT-4 has more than a trillion parameters – Report". March 25, 2023.

[:1-1] Haddad, Mohammed. "How does GPT-4 work and how can you start using it in ChatGPT?". www.aljazeera.com.

[:0-2] "Generative AI: a game-changer society needs to be ready for". World Economic Forum. 9 January 2023.

[:4-3] "The A to Z of Artificial Intelligence". Time. April 13, 2023.

[4] Hu, Luhui (November 15, 2022). "Generative AI and Future". Medium.

[5] "CSDL | IEEE Computer Society". www.computer.org.

[6] Lewis Tunstall; Leandro von Werra; Thomas Wolf (2022-08-03). 機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発. แปลโดย 中山光樹. 東京都新宿区四谷坂町: オライリー・ジャパン. p. 9. ISBN 978-4-87311-995-3.

[gpt1paper-7] 7.0 ^7.1 ^7.2 Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. p. 12. เก็บ (PDF)จากแหล่งเดิมเมื่อ 26 January 2021. สืบค้นเมื่อ 23 January 2021.

[tsvetkov-8] 8.0 ^8.1 Tsvetkov, Yulia (22 June 2017). "Opportunities and Challenges in Working with Low-Resource Languages" (PDF). Carnegie Mellon University. เก็บ (PDF)จากแหล่งเดิมเมื่อ 31 March 2020. สืบค้นเมื่อ 23 January 2021.

[language-unsupervised-9] "Improving language understanding with unsupervised learning". openai.com (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2023-03-18.

[10] Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. IEEE International Conference on Computer Vision (ICCV) 2015. pp. 19–27. arXiv:1506.06724. เก็บจากแหล่งเดิมเมื่อ 2023-02-05. สืบค้นเมื่อ 2023-02-07.

[gpt1-11] 11.0 ^11.1 "Improving language understanding with unsupervised learning". openai.com (ภาษาอังกฤษแบบอเมริกัน). June 11, 2018. เก็บจากแหล่งเดิมเมื่อ 2023-03-18. สืบค้นเมื่อ 2023-03-18.

[12] Vincent, James (November 7, 2019). "OpenAI has published the text-generating AI it said was too dangerous to share". The Verge.

[:2-13] 13.0 ^13.1 ^13.2 Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (May 28, 2020). "Language Models are Few-Shot Learners". NeurIPS. arXiv:2005.14165v4.

[:3-14] 14.0 ^14.1 ^14.2 "ML input trends visualization". Epoch (ภาษาอังกฤษ). สืบค้นเมื่อ 2023-05-02.

[:8-15] 15.0 ^15.1 Ver Meer, Dave (June 1, 2023). "ChatGPT Statistics". NamePepper (ภาษาอังกฤษ). สืบค้นเมื่อ 2023-06-09.

[16] "GPT-4 has more than a trillion parameters – Report". March 25, 2023.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

ทรานส์ฟอร์เมอร์ฝึกล่วงหน้าก่อกำเนิด

ประวัติศาสตร์

แบบจำลองรากฐาน

อ้างอิง

Portal di Ensiklopedia Dunia