ทรานส์ฟอร์เมอร์ฝึกล่วงหน้าก่อกำเนิด โครงสร้าง GPT รุ่นแรกสุด
ทรานส์ฟอร์เมอร์ฝึกล่วงหน้าก่อกำเนิด (generative pre-trained transformer, GPT) เป็นชุดของแบบจำลองภาษาขนาดใหญ่ [ 1] [ 2] [ 3] และยังเป็นเฟรมเวิร์กสำหรับปัญญาประดิษฐ์ช่วยสร้าง [ 4] [ 5] พัฒนาโดย OpenAI ได้รับการฝึกโดยใช้คลังข้อความ ขนาดใหญ่เพื่อให้สามารถสร้างประโยคที่เหมือนข้อความของมนุษย์
GPT ใช้เฉพาะส่วนถอดรหัสของสถาปัตยกรรมทรานส์ฟอร์เมอร์ และใช้แนวทางแบบจำลองภาษาเดียวกันกับ Universal Language Model Fine-tuning (ULMFiT)[ 6] สามารถทำการปรับละเอียด เพื่อใช้ในงานการประมวลผลภาษาธรรมชาติต่าง ๆ เช่น การสร้างข้อความ การแปล และ การจำแนกเอกสาร คำว่า "ฝึกล่วงหน้า" (pre-trained) ในชื่อ หมายถึงกระบวนการฝึกเบื้องต้นโดยคลังข้อความขนาดใหญ่ ในระหว่างที่แบบจำลองเรียนรู้ที่จะคาดเดาคำที่ตามหลังแต่ละประโยค นี่เป็นรากฐานที่มั่นคงซึ่งช่วยให้แบบจำลองทำงานได้อย่างถูกต้องแม้จะมีข้อมูลจำนวนจำกัดสำหรับกระบวนแยกเฉพาะ
ประวัติศาสตร์
เมื่อวันที่ 11 มิถุนายน 2018 บริษัท OpenAI ได้เผยแพร่บทความ "Improving Language Understanding by Generative Pre-Training" ซึ่งเป็นบทความแรกที่เพยแพร่เนื้อหาเกี่ยวกับ GPT[ 7]
ณ เวลานั้น แบบการประมวลผลภาษาธรรมชาติของระบบประสาทที่มีประสิทธิภาพดีที่สุดใช้การเรียนรู้แบบมีผู้สอน เป็นหลักจากข้อมูลที่มีการติดฉลากกำกับด้วยตนเองจำนวนมาก การพึ่งพาการเรียนรู้แบบมีผู้สอนไม่เพียงแต่มีข้อจำกัดตรงที่ต้องการใช้ชุดข้อมูลที่มีคำอธิบายประกอบที่ทำมาอย่างดีพอเท่านั้น แต่ยังทำให้การฝึกแบบจำลองขนาดใหญ่มากมีราคาแพงและใช้เวลานานมาก[ 7] [ 8] ในหลายภาษา (เช่น ภาษาสวาฮีลี และ ภาษาครีโอลเฮติ ) เป็นเรื่องยากที่จะแปลและตีความโดยใช้แบบจำลองดังกล่าว เนื่องจากไม่มีข้อความสำหรับการสร้างคลังข้อมูล[ 8] ในขณะที่แนวทางการเรียนรู้แบบกึ่งมีผู้สอน ของ GPT ช่วยให้สามารถทำได้ โดยการฝึกประกอบด้วย 2 ขั้นตอน คือ การฝึกแบบจำลองก่อกำเนิด แบบไม่มีผู้สอนเพื่อให้ได้พารามิเตอร์น้ำหนักสำหรับแบบจำลองภาษาตั้งต้น จากนั้นจึงใช้แบบจำลองจำแนก แบบมีผู้สอนทำการปรับละเอียด ให้เข้ากับงานที่ต้องการใช้[ 7]
การฝึกใช้ NVIDIA Quadro P600 ทั้งหมด 8 แผ่น ใช้เวลา 30 และประสิทธิภาพการดำเนินการอยู่ที่ 33% เท่ากับ 0.96 petaFLOPS / วัน[ 9]
แบบจำลองรากฐาน
ซีรีส์ GPT-n
แบบจำลอง
จำนวนพารามิเตอร์
ข้อมูลที่ใช้ฝึก
วันที่ปล่อย
จำนวนวันและทรัพยากรในการฝึก
GPT-1
117 ล้าน
BookCorpus :[ 10] ข้อความ 4.5 GB จากหนังสือที่ไม่ตีพิมพ์ 7000 เล่มในหลากหลายหมวด
000000002018-06-11-0000 11 มิถุนายน 2018 [ 11]
30 วันที่ 8 P600 GPUs หรือ 1 petaFLOP /s-day.[ 11]
GPT-2
1.5 พันล้าน
WebText: ข้อความ 40 GB เอกสาร 8 ล้านฉบับจากเว็บเพจ 45 หน้าบน Reddit
000000002019-02-14-0000 14 กุมภาพันธ์ 2019 (แบบจำกัด) และ 000000002019-11-05-0000 5 พฤศจิกายน 2019 (แบบเต็ม)[ 12]
เปนสิบ petaflop/s-day,[ 13] หรือ 1.5e21 FLOP.[ 14]
GPT-3
175 พันล้าน[ 15]
499 ล้านโทเค็นจากคอมมอนครอวล์ (570 GB)
000000002020-05-28-0000 28 พฤษภาคม 2020 [ 13]
3640 petaflop/s-day (Table D.1[ 13] ) หรือ 3.1e23 FLOP[ 14]
GPT-3.5
175 พันล้าน[ 15]
ไม่เปิดเผย
15 มีนาคม 2022
ไม่เปิดเผย
GPT-4
ไม่เปิดเผย แต่ประมาณกันว่า 1.7 ล้านล้าน[ 16]
ไม่เปิดเผย
000000002023-03-14-0000 14 มีนาคม 2023
ไม่เปิดเผย ประมาณ 2.1 × 1025 FLOP[ 14]
อ้างอิง
↑ Haddad, Mohammed. "How does GPT-4 work and how can you start using it in ChatGPT?" . www.aljazeera.com .
↑ "Generative AI: a game-changer society needs to be ready for" . World Economic Forum . 9 January 2023.
↑ "The A to Z of Artificial Intelligence" . Time . April 13, 2023.
↑ Hu, Luhui (November 15, 2022). "Generative AI and Future" . Medium .
↑ "CSDL | IEEE Computer Society" . www.computer.org .
↑ Lewis Tunstall; Leandro von Werra; Thomas Wolf (2022-08-03). 機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発 . แปลโดย 中山光樹. 東京都 新宿区 四谷坂町 : オライリー・ジャパン . p. 9. ISBN 978-4-87311-995-3 .
↑ 7.0 7.1 7.2 Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). "Improving Language Understanding by Generative Pre-Training" (PDF) . OpenAI . p. 12. เก็บ (PDF) จากแหล่งเดิมเมื่อ 26 January 2021. สืบค้นเมื่อ 23 January 2021 .
↑ 8.0 8.1 Tsvetkov, Yulia (22 June 2017). "Opportunities and Challenges in Working with Low-Resource Languages" (PDF) . Carnegie Mellon University. เก็บ (PDF) จากแหล่งเดิมเมื่อ 31 March 2020. สืบค้นเมื่อ 23 January 2021 .
↑ "Improving language understanding with unsupervised learning" . openai.com (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2023-03-18 .
↑ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books . IEEE International Conference on Computer Vision (ICCV) 2015. pp. 19–27. arXiv :1506.06724 . เก็บ จากแหล่งเดิมเมื่อ 2023-02-05. สืบค้นเมื่อ 2023-02-07 .
↑ 11.0 11.1 "Improving language understanding with unsupervised learning" . openai.com (ภาษาอังกฤษแบบอเมริกัน). June 11, 2018. เก็บ จากแหล่งเดิมเมื่อ 2023-03-18. สืบค้นเมื่อ 2023-03-18 .
↑ Vincent, James (November 7, 2019). "OpenAI has published the text-generating AI it said was too dangerous to share" . The Verge .
↑ 13.0 13.1 13.2 Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (May 28, 2020). "Language Models are Few-Shot Learners". NeurIPS . arXiv :2005.14165v4 .
↑ 14.0 14.1 14.2 "ML input trends visualization" . Epoch (ภาษาอังกฤษ). สืบค้นเมื่อ 2023-05-02 .
↑ 15.0 15.1 Ver Meer, Dave (June 1, 2023). "ChatGPT Statistics" . NamePepper (ภาษาอังกฤษ). สืบค้นเมื่อ 2023-06-09 .
↑ "GPT-4 has more than a trillion parameters – Report" . March 25, 2023.