Kỹ thuật tạo lệnh

Kỹ thuật tạo lệnh hoặc kỹ thuật ra lệnh[1] (prompt engineering) là quá trình cấu trúc một văn bản đầu vào cho AI tạo sinh giải thích và diễn giải.[2][3] Một văn bản đầu vào (prompt), còn được gọi là lệnh nhắc, hoặc gợi ý, là văn bản ngôn ngữ tự nhiên mô tả nhiệm vụ mà một AI cần thực hiện:[4] một lệnh nhắc cho mô hình ngôn ngữ lớn có thể là một truy vấn như "định lý nhỏ Fermat là gì?",[5] một mệnh lệnh như "viết một bài thơ về lá rụng",[6] hoặc một câu dài bao gồm ngữ cảnh, hướng dẫn,[7] và lịch sử cuộc trò chuyện. Kỹ thuật tạo lệnh có thể liên quan đến việc diễn đạt một truy vấn, chỉ định một phong cách,[6] cung cấp ngữ cảnh phù hợp[8] hoặc giao cho AI một vai trò như "Hành động như một người bản xứ Pháp".[9] Một lệnh nhắc có thể bao gồm một vài ví dụ để mô hình học hỏi, chẳng hạn như yêu cầu mô hình hoàn thành chuỗi "maison → house, chat → cat, chien → ... " (câu trả lời mong đợi là dog),[10] phương pháp này được gọi là học với ít mẫu.[11]

Khi giao tiếp với một mô hình chuyển văn bản thành hình ảnh hoặc mô hình chuyển văn bản thành âm thanh, một lệnh nhắc điển hình là mô tả đầu ra mong muốn như "một bức ảnh chất lượng cao của một phi hành gia cưỡi ngựa"[12] hoặc "Lo-fi slow BPM electro chill với các mẫu âm thanh tự nhiên (tiếng chim hót, tiếng mưa, tiếng sóng vỗ)".[13] Việc nhắc nhở một mô hình chuyển văn bản thành hình ảnh có thể liên quan đến việc thêm, loại bỏ, nhấn mạnh và sắp xếp lại các từ để đạt được đối tượng, phong cách,[2] bố cục, ánh sáng,[14] và thẩm mỹ mong muốn.

Học tập theo ngữ cảnh

Kỹ thuật tạo lệnh trở nên khả thi nhờ vào học theo ngữ cảnh (in-context learning). Đây là khi một mô hình có thể tạm thời học từ các nhắc lệnh mà nó được cung cấp. Khả năng học tập theo ngữ cảnh là một khả năng nổi bật[15] của các mô hình ngôn ngữ lớn. Học tập theo ngữ cảnh cũng là một thuộc tính nổi bật của kích thước mô hình, có nghĩa là nó mạnh mẽ hơn khi mô hình lớn hơn. Nó gây ra các đứt gãy[16] trong cách các mô hình mở rộng, khi mà các mô hình lớn hơn cải thiện theo những cách mà các mô hình nhỏ hơn không thể.[17][18]

Trái ngược với việc huấn luyện (training) và tinh chỉnh (fine-tuning) cho từng nhiệm vụ cụ thể, vốn không mang tính tạm thời, những gì đã được học trong quá trình học theo ngữ cảnh chỉ mang tính tạm thời. Nó không mang theo các ngữ cảnh tạm thời hoặc các độ lệch (bias), ngoại trừ những cái đã có sẵn trong tập dữ liệu (tiền huấn luyện), từ cuộc trò chuyện này sang cuộc trò chuyện khác.[19] Kết quả này của "tối ưu hóa mesa"[20][21] bên trong các lớp transformer là một dạng của học siêu cấp (Meta-learning) hoặc "học cách học".[22]

Lịch sử

Năm 2018, các nhà nghiên cứu lần đầu tiên đề xuất rằng tất cả các nhiệm vụ riêng biệt trước đây trong NLP, chẳng hạn như dịch máy, tóm tắt văn bản và phân tích tình huống, có thể được dồn vào một mô hình duy nhất và có thể xử lý câu trả lời theo ngữ cảnh. Ngoài ra, họ đã huấn luyện một mô hình đa nhiệm đầu tiên duy nhất để trả lời bất kỳ câu hỏi liên quan đến nhiệm vụ nào như là "Tâm trạng là gì" hoặc "Dịch câu này sang tiếng Đức" hoặc "Ai là tổng thống?"[23]

Năm 2021, các nhà nghiên cứu đã tinh chỉnh một mô hình đã được huấn luyện trước (T0) để thực hiện 12 nhiệm vụ NLP (sử dụng 62 tập dữ liệu, vì mỗi nhiệm vụ có thể có nhiều tập dữ liệu khác nhau). Mô hình đã cho thấy hiệu suất tốt trên các nhiệm vụ mới, vượt qua các mô hình được huấn luyện trực tiếp chỉ để thực hiện một nhiệm vụ (không có huấn luyện trước). Để giải quyết một nhiệm vụ, T0 được cung cấp nhiệm vụ trong một lệnh nhắc có cấu trúc như sau, Nếu {{tiền đề}} là đúng, liệu nó cũng có đúng với {{giả thuyết}}? ||| {{hậu quả}}., là lệnh nhắc được sử dụng để làm cho T0 giải quyết suy diễn (logical consequence).[24]

Một kho lưu trữ dành cho lệnh nhắc có hơn 2.000 lệnh nhắc công khai cho khoảng 170 tập dữ liệu đã có sẵn vào tháng 2 năm 2022.[25]

Năm 2022, kỹ thuật nhắc chuỗi tư duy (chain-of-thought prompting technique) đã được các nhà nghiên cứu từ Google đề xuất.[18][26]

Năm 2023, một số cơ sở dữ liệu lệnh nhắc (prompt database) từ văn bản sang văn bản và từ văn bản sang hình ảnh đã có sẵn công khai cho người dùng.[27][28]

Văn bản thành văn bản

Chuỗi tư duy

Chuỗi tư duy (Chain-of-thought - CoT) là một kỹ thuật cho phép mô hình ngôn ngữ lớn (LLM) giải quyết một vấn đề như một chuỗi các bước trung gian[29] trước khi đưa ra câu trả lời cuối cùng. Kỹ thuật tạo lệnh theo chuỗi tư duy cải thiện khả năng lý luận bằng cách khiến mô hình trả lời một vấn đề bằng nhiều bước mà các bước lý luận này đều theo dòng suy nghĩ.[18][30][31] Nó cho phép các mô hình ngôn ngữ lớn vượt qua khó khăn với một số nhiệm vụ đòi hỏi lý luận logic (logical reasoning) và cần nhiều bước để giải quyết, chẳng hạn như các câu hỏi về toán học hoặc lý luận thông thường (commonsense reasoning).[32][33][34]

Ví dụ, với câu hỏi "H: Nhà ăn có 23 quả táo. Nếu họ dùng 20 quả để làm bữa trưa và mua thêm 6 quả nữa, họ còn bao nhiêu quả táo?", một lệnh nhắc CoT có thể khiến LLM trả lời "Đ: Cả nhà ban đầu có 23 quả táo. Họ đã dùng 20 quả để làm bữa trưa. Vậy họ còn 23 - 20 = 3. Họ đã mua thêm 6 quả táo nữa, vì vậy họ có 3 + 6 = 9. Câu trả lời là 9."[18]

Như đã đề xuất ban đầu,[18] mỗi lệnh nhắc CoT bao gồm một vài ví dụ Hỏi & Đáp. Điều này khiến nó trở thành một kỹ thuật tạo lệnh ít mẫu (few-shot). Tuy nhiên, việc chỉ cần thêm các từ "Hãy suy nghĩ từng bước một",[35] cũng đã được chứng minh là hiệu quả, vì vậy nó cũng khiến CoT trở thành một kỹ thuật tạo lệnh không mẫu (zero-shot). Điều này cho phép mở rộng tốt hơn vì người dùng không còn cần phải xây dựng nhiều ví dụ Hỏi & Đáp CoT cụ thể.[36]

Khi được áp dụng cho PaLM, một mô hình ngôn ngữ có 540 tỷ tham số, lệnh nhắc CoT đã hỗ trợ đáng kể cho mô hình, cho phép nó hoạt động tương đương với các mô hình tinh chỉnh (fine-tuning model) theo nhiệm vụ cụ thể trên một số nhiệm vụ, đạt được kết quả hiện đại nhất vào thời điểm đó trên kiểm chuẩn lý luận toán học GSM8K (GSM8K mathematical reasoning benchmark).[18] Thêm vào đó, có thể tinh chỉnh các mô hình trên tập dữ liệu lý luận CoT để nâng cao khả năng này hơn nữa và kích thích khả năng diễn giải tốt hơn.[37][38]

Ví dụ:[35]

   H: {câu hỏi}
   Đ: Hãy suy nghĩ từng bước một.

Các kỹ thuật khác

Kỹ thuật tạo lệnh chuỗi tư duy chỉ là một trong nhiều kỹ thuật kỹ thuật tạo lệnh. Nhiều kỹ thuật khác cũng đã được đề xuất. Ít nhất 29 kỹ thuật khác nhau đã được công bố.[39]

Lệnh nhắc chuỗi ký hiệu (CoS)

Lệnh nhắc chuỗi ký hiệu (Chain of Symbol - CoS) kết hợp với lệnh nhắc CoT giúp các mô hình ngôn ngữ lớn (LLM) giải quyết khó khăn trong lý luận không gian trong văn bản. Nói cách khác, việc sử dụng các ký hiệu tùy ý như ' / ' giúp LLM diễn giải khoảng cách trong văn bản. Điều này hỗ trợ trong lý luận và tăng hiệu suất của LLM.[40]

Ví dụ:[40]

Đầu vào:
 
Có một tập hợp các viên gạch. Viên gạch màu vàng C nằm trên viên gạch E. Viên gạch màu vàng D nằm trên viên gạch A. Viên gạch màu vàng E nằm trên viên gạch D. Viên gạch màu trắng A nằm trên viên gạch B. Đối với viên gạch B, màu sắc là màu trắng. Bây giờ chúng ta phải lấy một viên gạch cụ thể. Các viên gạch phải được lấy từ trên xuống dưới, và nếu viên gạch ở dưới cần được lấy, viên gạch ở trên phải được gỡ bỏ trước. Làm thế nào để lấy viên gạch D?

B/A/D/E/C
C/E
E/D
D

Đầu ra:

Vậy chúng ta có kết quả là C, E, D.

Lệnh nhắc kiến thức được tạo ra

Lệnh nhắc kiến thức được tạo ra (Generated knowledge prompting)[41] trước tiên yêu cầu mô hình tạo ra các sự kiện liên quan để hoàn thành lệnh nhắc, sau đó tiếp tục hoàn thành lệnh nhắc. Chất lượng hoàn thành thường cao hơn, vì mô hình có thể được điều kiện hóa dựa trên các sự kiện liên quan.

Ví dụ:[41]

   Tạo một số kiến thức về các khái niệm trong đầu vào.
   Đầu vào: {câu hỏi}
   Kiến thức:

Lệnh nhắc ít tới nhiều

Lệnh nhắc ít tới nhiều (Least-to-most prompting)[42] gợi ý cho mô hình liệt kê các vấn đề phụ của một vấn đề trước, sau đó giải quyết chúng theo trình tự, sao cho các vấn đề phụ sau có thể được giải quyết với sự trợ giúp từ các câu trả lời của các vấn đề phụ trước.

Ví dụ:[42]

   Đầu vào:
   Q: {câu hỏi}
   A: Hãy phân tích vấn đề này:
       1.

Giải mã tự nhất quán

Giải mã tự nhất quán (Self-consistency decoding)[43] thực hiện nhiều chuỗi suy nghĩ, sau đó chọn ra kết luận thường được đạt đến nhất từ tất cả các chuỗi suy nghĩ. Nếu các chuỗi suy nghĩ khác nhau quá nhiều, có thể hỏi con người để có được chuỗi suy nghĩ chính xác.[44]

Lệnh nhắc dựa trên độ phức tạp

Lệnh nhắc dựa trên độ phức tạp (Complexity-based prompting)[45] thực hiện nhiều chuỗi suy nghĩ, sau đó chọn những chuỗi có chuỗi suy nghĩ dài nhất, và sau đó chọn ra kết luận thường được đạt đến nhất từ những chuỗi đó.

Tự hoàn thiện

Kỹ thuật tự hoàn thiện (Self-refine) [46] ban đầu cho LLM giải quyết vấn đề, sau đó yêu cầu LLM phê bình giải pháp của mình, rồi bảo LLM giải quyết lại vấn đề dựa trên chúng. Quá trình này được lặp lại cho đến khi dừng lại, có thể do hết token, thời gian, hoặc LLM xuất ra một token "dừng".

Ví dụ về phê bình:[46]

   Tôi có một đoạn mã. Đưa ra một gợi ý để cải thiện khả năng đọc. Đừng sửa đoạn mã, chỉ cần đưa ra gợi ý.
   Đoạn mã: {mã}
   Gợi ý:

Ví dụ về tinh chỉnh:

   Đoạn mã: {mã}
   Hãy sử dụng gợi ý này để cải thiện đoạn mã.
   Gợi ý: {gợi ý}
   Đoạn mã mới:

Cây tư duy

Lệnh nhắc cây tư duy (Tree-of-thought - ToT) [47] tổng quát hóa chuỗi suy nghĩ (chain-of-thought) bằng cách yêu cầu mô hình tạo ra một hoặc nhiều "bước tiếp theo có thể xảy ra", sau đó chạy mô hình trên từng bước tiếp theo có thể xảy ra tiếp sau đó bằng phương pháp tìm kiếm theo chiều rộng, beam (beam search), hoặc một số phương pháp tìm kiếm cây khác.[48]

Lệnh nhắc Maieutic

Lệnh nhắc Maieutic tương tự như tree-of-thought. Mô hình được yêu cầu trả lời một câu hỏi kèm theo giải thích. Sau đó, mô hình tiếp tục được yêu cầu giải thích các phần của lời giải thích, và cứ thế tiếp tục. Những cây giải thích không nhất quán sẽ bị cắt bỏ hoặc loại bỏ. Điều này cải thiện hiệu suất trong việc lý luận phức tạp về kiến thức thông thường.[49]

Ví dụ:[49]

   Q: {câu hỏi} 
   A: Đúng, bởi vì
   Q: {câu hỏi} 
   A: Sai, bởi vì

Lệnh nhắc kích thích định hướng

Lệnh nhắc kích thích định hướng (Directional-stimulus prompting)[50] bao gồm một gợi ý hoặc dấu hiệu, chẳng hạn như từ khóa mong muốn, để hướng dẫn mô hình ngôn ngữ đến đầu ra mong muốn.

Ví dụ:[50]

   Bài viết: {bài viết} 
   Từ khóa:
   Bài viết: {bài viết} 
   H: Viết một bản tóm tắt ngắn của bài viết trong 2-4 câu, chính xác bao gồm các từ khóa được cung cấp. 
   Từ khóa: {từ khóa} 
   Đ:

Lệnh nhắc để tiết lộ sự không chắc chắn

Mặc định, đầu ra của các mô hình ngôn ngữ có thể không chứa ước tính về sự không chắc chắn (uncertainty). Mô hình có thể xuất ra văn bản trông có vẻ tự tin, mặc dù dự đoán về các từ trong mô hình có điểm hợp lý (likelihood score) thấp. Các mô hình ngôn ngữ lớn như GPT-4 có thể có các điểm hợp lý được hiệu chỉnh chính xác trong các dự đoán từ,[51] và do đó sự không chắc chắn của đầu ra mô hình có thể được ước tính trực tiếp bằng cách đọc ra các điểm hợp lý của dự đoán từ (token prediction).

Tuy nhiên, nếu không thể truy cập được các điểm này (chẳng hạn như khi truy cập mô hình qua API), sự không chắc chắn vẫn có thể được ước tính và tích hợp vào đầu ra của mô hình. Một phương pháp đơn giản là kích thích mô hình sử dụng từ ngữ để ước tính sự không chắc chắn.[52] Một phương pháp khác là kích thích mô hình từ chối trả lời nếu đầu vào không thỏa mãn các điều kiện.[cần dẫn nguồn]

Tự động tạo lệnh nhắc

Tạo văn bản có hỗ trợ truy xuất

Quy trình hai pha của việc truy xuất tài liệu sử dụng các vectơ từ (word embedding) dày đặc và mô hình Ngôn ngữ Lớn (LLM) để tạo câu trả lời

Tạo văn bản có hỗ trợ truy xuất (Retrieval-augmented generation - RAG) là một quy trình hai pha liên quan đến truy xuất tài liệu và tạo câu trả lời bởi một mô hình Ngôn ngữ Lớn (LLM). Giai đoạn ban đầu sử dụng các vectơ từ (word embedding) dày đặc để truy xuất tài liệu. Việc truy xuất này có thể dựa trên nhiều định dạng cơ sở dữ liệu khác nhau tùy theo trường hợp sử dụng, chẳng hạn như một cơ sở dữ liệu vector (vector database), chỉ mục tóm tắt (summary index), chỉ mục cây (tree index), hoặc bảng chỉ mục từ khóa (keyword table index).[53]

Khi nhận được truy vấn, công cụ truy xuất tài liệu sẽ chọn ra các tài liệu liên quan nhất. Mức độ liên quan này thường được xác định bằng cách mã hóa cả truy vấn và các tài liệu thành các vectơ, sau đó xác định các tài liệu có vectơ gần nhất về khoảng cách Euclid so với vectơ truy vấn. Sau khi truy xuất tài liệu, LLM sẽ tạo ra một đầu ra kết hợp thông tin từ cả truy vấn và các tài liệu đã truy xuất.[54] Phương pháp này đặc biệt hữu ích cho việc xử lý thông tin độc quyền hoặc động mà không được bao gồm trong các giai đoạn đào tạo hoặc tinh chỉnh ban đầu của mô hình. RAG cũng nổi bật với việc sử dụng "học ít mẫu", nơi mô hình sử dụng một số lượng nhỏ các ví dụ, thường được tự động truy xuất từ cơ sở dữ liệu, để định hướng cho các đầu ra của nó.

Truy xuất qua đồ thị tăng cường tạo sinh (Graph retrieval-augmented generation)

GraphRAG với một đồ thị tri thức (knowledge graph) kết hợp các mẫu truy cập cho dữ liệu không có cấu trúc, có cấu trúc và dữ liệu hỗn hợp.

GraphRAG,[55] được Microsoft Research tạo ra, mở rộng RAG theo cách thay vì chỉ dựa vào độ tương đồng vectơ (như trong hầu hết các phương pháp RAG), GraphRAG sử dụng đồ thị tri thức (knowledge graph) do LLM tạo ra. Đồ thị này cho phép mô hình kết nối các mẩu thông tin rời rạc, tổng hợp lại các kiến thức và hiểu một cách toàn diện các khái niệm ngữ nghĩa được tóm tắt trên các bộ dữ liệu lớn.

Các nhà nghiên cứu đã chứng minh hiệu quả của GraphRAG khi sử dụng các bộ dữ liệu như Violent Incident Information from News Articles (VIINA).[56] Bằng cách kết hợp đồ thị tri thức do LLM tạo ra với học máy trên đồ thị, GraphRAG cải thiện đáng kể cả tính toàn diện và đa dạng của các câu trả lời được tạo ra cho các câu hỏi tổng hợp theo ngữ cảnh toàn cầu.

Công việc trước đó đã chỉ ra hiệu quả của việc sử dụng một đồ thị tri thức cho việc trả lời câu hỏi bằng cách sử dụng tạo sinh truy vấn từ văn bản.[57] Những kỹ thuật này có thể được kết hợp để thực hiện tìm kiếm trên cả dữ liệu không có cấu trúc và có cấu trúc, cung cấp ngữ cảnh mở rộng và cải thiện xếp hạng.

Sử dụng mô hình ngôn ngữ để tạo ra các lệnh nhắc

Các mô hình ngôn ngữ lớn (LLM) có thể được sử dụng để tạo ra các lệnh nhắc cho chính các mô hình ngôn ngữ lớn khác.[58][59][60][61]

Thuật toán kỹ sư lệnh nhắc tự động (automatic prompt engineer algorithm) sử dụng một LLM để tìm kiếm beam (beam search) qua các lệnh nhắc cho một LLM khác:[62]

  • Có hai LLM. Một là LLM mục tiêu, và một là LLM tạo lệnh nhắc.
  • LLM tạo lệnh nhắc được cung cấp các cặp ví dụ đầu vào-đầu ra, và được yêu cầu tạo ra các lệnh (instruction) mà nếu một mô hình tuân theo các lệnh đó có thể tạo ra đầu ra, dựa trên đầu vào.
  • Mỗi lệnh được tạo ra sẽ được sử dụng để nhắc nhở LLM mục tiêu, sau đó là mỗi đầu vào. Logarit xác suất của các đầu ra được tính toán và cộng lại. Đây là điểm số của lệnh.
  • Các lệnh có điểm số cao nhất sẽ được cung cấp cho LLM tạo lời nhắc để tạo ra các biến thể tiếp theo.
  • Quá trình lặp lại cho đến khi đạt đến tiêu chí dừng, sau đó xuất ra các lệnh có điểm số cao nhất.

Ví dụ CoT có thể được tạo ra bởi chính LLM. Trong "auto-CoT",[63] một thư viện câu hỏi được chuyển thành các vectơ bởi một mô hình như BERT. Các vectơ câu hỏi được phân tích cụm. Các câu hỏi gần với tâm của mỗi cụm sẽ được chọn. Một LLM thực hiện CoT zero-shot trên mỗi câu hỏi. Các ví dụ CoT kết quả sẽ được thêm vào tập dữ liệu. Khi được nhắc với một câu hỏi mới, các ví dụ CoT gần nhất với câu hỏi đó có thể được truy xuất và thêm vào lệnh nhắc.

Văn bản thành hình ảnh

Vào năm 2022, các mô hình văn bản thành hình ảnh (text-to-image) như DALL-E 2, Stable Diffusion, và Midjourney đã được phát hành công khai cho người dùng.[64] Các mô hình này nhận các lệnh nhắc văn bản làm đầu vào và sử dụng chúng để tạo ra hình ảnh trí truệ nhân tạo (AI art). Các mô hình text-to-image thường không hiểu ngữ pháp và cấu trúc câu theo cùng cách như các mô hình ngôn ngữ lớn khác,[65] vì nó yêu cầu một tập lệnh nhắc khác biệt.

Định dạng lệnh nhắc

Một lệnh nhắc text-to-image thường bao gồm mô tả về chủ đề của nghệ thuật (chẳng hạn như hoa anh túc màu cam sáng), phương tiện mong muốn (chẳng hạn như tranh kỹ thuật số hoặc nhiếp ảnh), phong cách (chẳng hạn như siêu thực hoặc pop-art), ánh sáng (chẳng hạn như ánh sáng rìa hoặc tia sáng lúc hoàng hôn), màu sắc và kết cấu.[66]

Tài liệu của Midjourney khuyến khích sử dụng các lệnh nhắc ngắn gọn để mô tả, thay vì "Hãy cho tôi xem một bức tranh với nhiều hoa anh túc nở rộ ở California, làm chúng tươi sáng với màu cam rực rỡ, và vẽ chúng theo phong cách minh họa bằng bút chì màu", một lệnh hiệu quả hơn có thể là "Hoa anh túc California màu cam sáng được vẽ bằng bút chì màu".[65]

Thứ tự từ ngữ ảnh hưởng đến kết quả của một lệnh nhắc text-to-image. Các từ nằm gần phần đầu của lệnh nhắc có thể được nhấn mạnh nhiều hơn.[2]

Phong cách nghệ sĩ

Một số mô hình text-to-image có khả năng bắt chước phong cách của các nghệ sĩ cụ thể bằng cách gọi tên. Ví dụ, cụm từ theo phong cách Greg Rutkowski đã được sử dụng trong các lệnh nhắc của Stable Diffusion và Midjourney để tạo ra hình ảnh theo phong cách đặc trưng của nghệ sĩ kỹ thuật số người Ba Lan Greg Rutkowski.[67]

Lệnh nhắc phủ định

Minh họa tác động của các lệnh nhắc phủ định đối với hình ảnh được tạo bằng Stable Diffusion
  • Trên cùng: không có lệnh nhắc phủ định
  • Giữa: "cây xanh"
  • Dưới cùng: "đá tròn"

Các mô hình text-to-image không tự nhiên hiểu được phủ định. Lệnh nhắc "một bữa tiệc không có bánh" có khả năng tạo ra một hình ảnh bao gồm cả bánh.[65] Thay vào đó, lệnh nhắc phủ định (negative prompt) cho phép người dùng chỉ định trong một lệnh nhắc riêng những thuật ngữ nào không nên xuất hiện trong hình ảnh kết quả.[68] Một phương pháp phổ biến là bao gồm các thuật ngữ không mong muốn chung như xấu xí, nhàm chán, giải phẫu sai trong lệnh nhắc phủ định cho một hình ảnh.

Văn bản thành video

Văn bản thành video (text-to-video - TTV) là một công nghệ mới nổi, cho phép tạo ra video trực tiếp từ các lệnh nhắc văn bản. Lĩnh vực này có tiềm năng biến đổi việc sản xuất video, hoạt hình, và kể chuyện. Bằng cách sử dụng sức mạnh của trí tuệ nhân tạo, TTV cho phép người dùng bỏ qua các công cụ chỉnh sửa video truyền thống và chuyển đổi ý tưởng của họ thành hình ảnh động.

Các mô hình bao gồm:

  • Runway Gen-2 – Cung cấp giao diện thân thiện với người dùng và hỗ trợ nhiều phong cách video khác nhau
  • Lumiere – Được thiết kế cho việc tạo video độ phân giải cao[69]
  • Make-a-Video – Tập trung vào việc tạo ra các video chi tiết và đa dạng[70]
  • Sora của OpenAI – Chưa được phát hành, nhưng được cho là có thể tạo video độ phân giải cao[71][72]

Lệnh không phải văn bản

Một số phương pháp tiếp cận bổ sung hoặc thay thế các lệnh văn bản tự nhiên bằng các đầu vào không phải văn bản.

Đảo ngược văn bản và vectơ từ

Đối với các mô hình chuyển văn bản thành hình ảnh, "đảo ngược văn bản" (textual inversion) [73] thực hiện một quy trình tối ưu hóa để tạo ra một vectơ từ (word embedding) mới dựa trên một tập hợp các hình ảnh mẫu. Vectơ từ này hoạt động như một "pseudo-word" (từ giả) và có thể được đưa vào một lệnh nhắc để thể hiện nội dung hoặc phong cách.

Lệnh hình ảnh

Vào năm 2023, Meta đã phát hành Segment Anything, một mô hình thị giác máy tính có thể thực hiện phân vùng ảnh bằng cách sử dụng lệnh. Thay vào lệnh văn bản, Segment Anything có thể sử dụng các hộp giới hạn (bounding box), mặt nạ phân đoạn (segmatation mask), và điểm tiền cảnh/bối cảnh (foreground/background).[74]

Sử dụng suy giảm độ dốc để tìm kiếm lệnh

Trong "prefix-tuning",[75] "prompt tuning" hoặc "soft prompting",[76] các vectơ giá trị số thực (floating-point-valued vector) được tìm kiếm trực tiếp bằng suy giảm độ dốc (gradient descent) để tối đa hóa xác suất logarith hàm hợp lý (log-likelihood) trên các đầu ra.

Về mặt hình thức, hãy để là một tập hợp các token lệnh mềm (embedding có thể điều chỉnh), trong khi là các token embedding của đầu vào và đầu ra tương ứng. Trong quá trình huấn luyện, các embedding có thể điều chỉnh, đầu vào, và các token đầu ra được nối thành một chuỗi duy nhất và đưa vào các mô hình ngôn ngữ lớn (LLM). Các hàm mất mát được tính trên các token ; các gradient được truyền ngược đến các tham số riêng của lệnh: trong prefix-tuning, chúng là các tham số liên quan đến các token lệnh ở mỗi lớp; trong prompt tuning, chúng chỉ là các token mềm được thêm vào từ vựng.[77]

Về mặt hình thức hơn, đây là prompt tuning. Hãy để một LLM được viết là , trong đó là một chuỗi các token ngôn ngữ, là hàm chuyển token thành vectơ, và là phần còn lại của mô hình. Trong prefix-tuning, ta cung cấp một tập hợp các cặp đầu vào-đầu ra , sau đó sử dụng suy giảm độ dốc để tìm kiếm . Nói cách khác, là xác suất logarith hàm hợp lý (log-likelihood) của việc xuất ra , nếu mô hình trước tiên mã hóa đầu vào thành vectơ , sau đó tiền tố vectơ với tiền vectơ (prefix vector) , rồi áp dụng .

Đối với prefix tuning, nó tương tự, nhưng tiền vectơ được chèn vào các trạng thái ẩn trong mỗi lớp của mô hình.

Kết quả trước đó[78] sử dụng cùng ý tưởng tìm kiếm suy giảm độ dốc, nhưng được thiết kế cho các mô hình ngôn ngữ bị che như BERT, và chỉ tìm kiếm trên các chuỗi token, thay vì các vectơ số học. Về mặt hình thức, nó tìm kiếm trong đó được giới hạn trong các chuỗi token có độ dài nhất định.

Tiêm lệnh nhắc

Tiêm lệnh nhắc (Prompt injection) là một phương pháp khai thác lợi dụng kẽ hở của khai thác bảo mật máy tính được thực hiện bằng cách khiến một mô hình học máy (chẳng hạn như một LLM được huấn luyện để tuân theo các chỉ dẫn do con người cung cấp) phải tuân theo các chỉ dẫn được cung cấp bởi người dùng độc hại. Điều này trái ngược với hoạt động dự định của các hệ thống tuân theo chỉ dẫn, trong đó mô hình học máy được dự định chỉ tuân theo các chỉ dẫn đáng tin cậy (lệnh nhắc) do người điều hành mô hình học máy cung cấp.[79][80][81]

Xem thêm

Tham khảo

  1. ^ Điệp, Anh (28 tháng 11 năm 2023). “Kỹ sư ra lệnh - công việc sinh ra trong cơn sốt AI”. VnExpress.
  2. ^ a b c Diab, Mohamad; Herrera, Julian; Chernow, Bob (28 tháng 10 năm 2022). “Stable Diffusion Prompt Book” (PDF). Truy cập ngày 7 tháng 8 năm 2023. Prompt engineering is the process of structuring words that can be interpreted and understood by a text-to-image model. Think of it as the language you need to speak in order to tell an AI model what to draw.
  3. ^ Ziegler, Albert; Berryman, John (17 tháng 7 năm 2023). “A developer's guide to prompt engineering and LLMs”. The GitHub Blog. Prompt engineering is the art of communicating with a generative AI model.
  4. ^ Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilya (2019). “Language Models are Unsupervised Multitask Learners” (PDF). OpenAI. We demonstrate language models can perform down-stream tasks in a zero-shot setting – without any parameter or architecture modification
  5. ^ “Introducing ChatGPT”. OpenAI Blog. 30 tháng 11 năm 2022. Truy cập ngày 16 tháng 8 năm 2023. what is the fermat's little theorem
  6. ^ a b Robinson, Reid (3 tháng 8 năm 2023). “How to write an effective GPT-3 or GPT-4 prompt”. Zapier. Truy cập ngày 14 tháng 8 năm 2023. "Basic prompt: 'Write a poem about leaves falling.' Better prompt: 'Write a poem in the style of Edgar Allan Poe about leaves falling.'
  7. ^ Gouws-Stewart, Natasha (16 tháng 6 năm 2023). “The ultimate guide to prompt engineering your GPT-3.5-Turbo model”. masterofcode.com.
  8. ^ Greenberg, J., Laura (31 tháng 5 năm 2023). “How to Prime and Prompt ChatGPT for More Reliable Contract Drafting Support”. contractnerds.com. Truy cập ngày 24 tháng 7 năm 2023.
  9. ^ “GPT Best Practices”. OpenAI. Truy cập ngày 16 tháng 8 năm 2023.
  10. ^ Garg, Shivam; Tsipras, Dimitris; Liang, Percy; Valiant, Gregory (2022). "What Can Transformers Learn In-Context? A Case Study of Simple Function Classes". arΧiv:2208.01066 [cs.CL]. 
  11. ^ Brown, Tom; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared D.; Dhariwal, Prafulla; Neelakantan, Arvind (2020). “Language models are few-shot learners”. Advances in Neural Information Processing Systems. 33: 1877–1901. arXiv:2005.14165.
  12. ^ Heaven, Will Douglas (6 tháng 4 năm 2022). “This horse-riding astronaut is a milestone on AI's long road towards understanding”. MIT Technology Review. Truy cập ngày 14 tháng 8 năm 2023.
  13. ^ Wiggers, Kyle (12 tháng 6 năm 2023). “Meta open sources an AI-powered music generator”. TechCrunch. Truy cập ngày 15 tháng 8 năm 2023. Next, I gave a more complicated prompt to attempt to throw MusicGen for a loop: "Lo-fi slow BPM electro chill with organic samples."
  14. ^ “How to Write AI Photoshoot Prompts: A Guide for Better Product Photos”. claid.ai. 12 tháng 6 năm 2023. Truy cập ngày 12 tháng 6 năm 2023.
  15. ^ Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny (31 August 2022). "Emergent Abilities of Large Language Models". arΧiv:2206.07682 [cs.CL]. ""In prompting, a pre-trained language model is given a prompt (e.g. a natural language instruction) of a task and completes the response without any further training or gradient updates to its parameters... The ability to perform a task via few-shot prompting is emergent when a model has random performance until a certain scale, after which performance increases to well-above random"". 
  16. ^ Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Broken Neural Scaling Laws". International Conference on Learning Representations (ICLR), 2023.
  17. ^ Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny (31 August 2022). "Emergent Abilities of Large Language Models". arΧiv:2206.07682 [cs.CL]. 
  18. ^ a b c d e f Wei, Jason; Wang, Xuezhi; Schuurmans, Dale; Bosma, Maarten; Ichter, Brian; Xia, Fei; Chi, Ed H.; Le, Quoc V.; Zhou, Denny (31 tháng 10 năm 2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. Advances in Neural Information Processing Systems (NeurIPS 2022) (bằng tiếng Anh). 35. arXiv:2201.11903.
  19. ^ Musser, George. “How AI Knows Things No One Told It”. Scientific American. Truy cập ngày 17 tháng 5 năm 2023. By the time you type a query into ChatGPT, the network should be fixed; unlike humans, it should not continue to learn. So it came as a surprise that LLMs do, in fact, learn from their users' prompts—an ability known as in-context learning.
  20. ^ Johannes von Oswald; Niklasson, Eyvind; Randazzo, Ettore; Sacramento, João; Mordvintsev, Alexander; Zhmoginov, Andrey; Vladymyrov, Max (2022). "Transformers learn in-context by gradient descent". arΧiv:2212.07677 [cs.LG]. ""Thus we show how trained Transformers become mesa-optimizers i.e. learn models by gradient descent in their forward pass"". 
  21. ^ “Mesa-Optimization”. 31 tháng 5 năm 2019. Truy cập ngày 17 tháng 5 năm 2023. Mesa-Optimization is the situation that occurs when a learned model (such as a neural network) is itself an optimizer.
  22. ^ Garg, Shivam; Tsipras, Dimitris; Liang, Percy; Valiant, Gregory (2022). "What Can Transformers Learn In-Context? A Case Study of Simple Function Classes". arΧiv:2208.01066 [cs.CL]. ""Training a model to perform in-context learning can be viewed as an instance of the more general learning-to-learn or meta-learning paradigm"". 
  23. ^ McCann, Bryan; Shirish, Nitish; Xiong, Caiming; Socher, Richard (2018). "The Natural Language Decathlon: Multitask Learning as Question Answering". arΧiv:1806.08730 [cs.CL]. 
  24. ^ Sanh, Victor; Webson, Albert; Raffel, Colin; Bach, Stephen H.; Sutawika, Lintang; Alyafeai, Zaid; Chaffin, Antoine; Stiegler, Arnaud; Teven Le Scao (2021). "Multitask Prompted Training Enables Zero-Shot Task Generalization". arΧiv:2110.08207 [cs.LG]. 
  25. ^ Bach, Stephen H.; Sanh, Victor; Yong, Zheng-Xin; Webson, Albert; Raffel, Colin; Nayak, Nihal V.; Sharma, Abheesht; Kim, Taewoon; M Saiful Bari (2022). "PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts". arΧiv:2202.01279 [cs.LG]. 
  26. ^ Wei, Jason; Zhou (11 tháng 5 năm 2022). “Language Models Perform Reasoning via Chain of Thought”. ai.googleblog.com (bằng tiếng Anh). Truy cập ngày 10 tháng 3 năm 2023.
  27. ^ Chen, Brian X. (23 tháng 6 năm 2023). “How to Turn Your Chatbot Into a Life Coach”. The New York Times.
  28. ^ Chen, Brian X. (25 tháng 5 năm 2023). “Get the Best From ChatGPT With These Golden Prompts”. The New York Times (bằng tiếng Anh). ISSN 0362-4331. Truy cập ngày 16 tháng 8 năm 2023.
  29. ^ McAuliffe, Zachary. “Google's Latest AI Model Can Be Taught How to Solve Problems”. CNET (bằng tiếng Anh). Truy cập ngày 10 tháng 3 năm 2023. 'Chain-of-thought prompting allows us to describe multistep problems as a series of intermediate steps,' Google CEO Sundar Pichai
  30. ^ McAuliffe, Zachary. “Google's Latest AI Model Can Be Taught How to Solve Problems”. CNET (bằng tiếng Anh). Truy cập ngày 10 tháng 3 năm 2023.
  31. ^ Sharan Narang and Aakanksha Chowdhery (4 tháng 4 năm 2022). “Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance”.
  32. ^ Dang, Ekta (8 tháng 2 năm 2023). “Harnessing the power of GPT-3 in scientific research”. VentureBeat. Truy cập ngày 10 tháng 3 năm 2023.
  33. ^ Montti, Roger (13 tháng 5 năm 2022). “Google's Chain of Thought Prompting Can Boost Today's Best Algorithms”. Search Engine Journal (bằng tiếng Anh). Truy cập ngày 10 tháng 3 năm 2023.
  34. ^ Ray, Tiernan. “Amazon's Alexa scientists demonstrate bigger AI isn't always better”. ZDNET (bằng tiếng Anh). Truy cập ngày 10 tháng 3 năm 2023.
  35. ^ a b Kojima, Takeshi; Shixiang Shane Gu; Reid, Machel; Matsuo, Yutaka; Iwasawa, Yusuke (2022). "Large Language Models are Zero-Shot Reasoners". arΧiv:2205.11916 [cs.CL]. 
  36. ^ Dickson, Ben (30 tháng 8 năm 2022). “LLMs have not learned our language — we're trying to learn theirs”. VentureBeat. Truy cập ngày 10 tháng 3 năm 2023.
  37. ^ Chung, Hyung Won; Hou, Le; Longpre, Shayne; Zoph, Barret; Tay, Yi; Fedus, William; Li, Yunxuan; Wang, Xuezhi; Dehghani, Mostafa (2022). "Scaling Instruction-Finetuned Language Models". arΧiv:2210.11416 [cs.LG]. 
  38. ^ Wei, Jason; Tay, Yi (29 tháng 11 năm 2022). “Better Language Models Without Massive Compute”. ai.googleblog.com (bằng tiếng Anh). Truy cập ngày 10 tháng 3 năm 2023.
  39. ^ Sahoo, Pranab; Singh, Ayush Kumar; Saha, Sriparna; Jain, Vinija; Mondal, Samrat; Chadha, Aman (5 tháng 2 năm 2024), A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications, arXiv:2402.07927
  40. ^ a b Hu, Hanxu; Lu, Hongyuan; Zhang, Huajian; Song, Yun-Ze; Lam, Wai; Zhang, Yue (3 tháng 10 năm 2023), Chain-of-Symbol Prompting Elicits Planning in Large Language Models, arXiv:2305.10276
  41. ^ a b Liu, Jiacheng; Liu, Alisa; Lu, Ximing; Welleck, Sean; West, Peter; Le Bras, Ronan; Choi, Yejin; Hajishirzi, Hannaneh (tháng 5 năm 2022). “Generated Knowledge Prompting for Commonsense Reasoning”. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin, Ireland: Association for Computational Linguistics: 3154–3169. arXiv:2110.08387. doi:10.18653/v1/2022.acl-long.225. S2CID 239016123.
  42. ^ a b Zhou, Denny; Schärli, Nathanael; Hou, Le; Wei, Jason; Scales, Nathan; Wang, Xuezhi; Schuurmans, Dale; Cui, Claire; Bousquet, Olivier (2022-05-01). "Least-to-Most Prompting Enables Complex Reasoning in Large Language Models". arΧiv:2205.10625 [cs.AI]. ""...least-to-most prompting. The key idea in this strategy is to break down a complex problem into a series of simpler subproblems and then solve them in sequence."". 
  43. ^ Wang, Xuezhi; Wei, Jason; Schuurmans, Dale; Le, Quoc; Chi, Ed; Narang, Sharan; Chowdhery, Aakanksha; Zhou, Denny (2022-03-01). "Self-Consistency Improves Chain of Thought Reasoning in Language Models". arΧiv:2203.11171 [cs.CL]. 
  44. ^ Diao, Shizhe; Wang, Pengcheng; Lin, Yong; Zhang, Tong (2023-02-01). "Active Prompting with Chain-of-Thought for Large Language Models". arΧiv:2302.12246 [cs.CL]. 
  45. ^ Fu, Yao; Peng, Hao; Sabharwal, Ashish; Clark, Peter; Khot, Tushar (2022-10-01). "Complexity-Based Prompting for Multi-Step Reasoning". arΧiv:2210.00720 [cs.CL]. 
  46. ^ a b Madaan, Aman; Tandon, Niket; Gupta, Prakhar; Hallinan, Skyler; Gao, Luyu; Wiegreffe, Sarah; Alon, Uri; Dziri, Nouha; Prabhumoye, Shrimai (2023-03-01). "Self-Refine: Iterative Refinement with Self-Feedback". arΧiv:2303.17651 [cs.CL]. 
  47. ^ Long, Jieyi (2023-05-15). "Large Language Model Guided Tree-of-Thought". arΧiv:2305.08291 [cs.AI]. 
  48. ^ Yao, Shunyu; Yu, Dian; Zhao, Jeffrey; Shafran, Izhak; Griffiths, Thomas L.; Cao, Yuan; Narasimhan, Karthik (2023-05-17). "Tree of Thoughts: Deliberate Problem Solving with Large Language Models". arΧiv:2305.10601 [cs.CL]. 
  49. ^ a b Jung, Jaehun; Qin, Lianhui; Welleck, Sean; Brahman, Faeze; Bhagavatula, Chandra; Le Bras, Ronan; Choi, Yejin (2022). "Maieutic Prompting: Logically Consistent Reasoning with Recursive Explanations". arΧiv:2205.11822 [cs.CL]. 
  50. ^ a b Li, Zekun; Peng, Baolin; He, Pengcheng; Galley, Michel; Gao, Jianfeng; Yan, Xifeng (2023). "Guiding Large Language Models via Directional Stimulus Prompting". arΧiv:2302.11520 [cs.CL]. ""The directional stimulus serves as hints or cues for each input query to guide LLMs toward the desired output, such as keywords that the desired summary should include for summarization."". 
  51. ^ OpenAI (2023-03-27). "GPT-4 Technical Report". arΧiv:2303.08774 [cs.CL].  [See Figure 8.]
  52. ^ Eliot, Lance (18 tháng 8 năm 2023). “Latest Prompt Engineering Technique Aims To Get Certainty And Uncertainty Of Generative AI Directly On The Table And Out In The Open”. Forbes. Truy cập ngày 31 tháng 8 năm 2024. If you explicitly indicate in your prompt that you want the generative AI to emit a certainty or uncertainty qualification then you will almost certainly get such an indication.
  53. ^ “How Each Index Works - LlamaIndex 🦙 v0.10.17”. docs.llamaindex.ai. Truy cập ngày 8 tháng 4 năm 2024.
  54. ^ Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich; Lewis, Mike; Yih, Wen-tau; Rocktäschel, Tim; Riedel, Sebastian; Kiela, Douwe (2020). “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”. Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 9459–9474. arXiv:2005.11401.
  55. ^ GraphRAG: Unlocking LLM discovery on narrative private data, 2024
  56. ^ Edge, Darren; Trinh, Ha; Cheng, Newman; Bradley, Joshua; Chao, Alex; Mody, Apurva; Truitt, Steven; Larson, Jonathan (2024), From Local to Global: A Graph RAG Approach to Query-Focused Summarization, arXiv:2404.16130
  57. ^ Sequeda, Juan; Allemang, Dean; Jacob, Bryon (2023), A Benchmark to Understand the Role of Knowledge Graphs on Large Language Model's Accuracy for Question Answering on Enterprise SQL Databases, arXiv:2311.07509
  58. ^ Singh, Chandan; Morris, John; Aneja, Jyoti; Rush, Alexander; Gao, Jianfeng (4 tháng 10 năm 2022). “Explaining Patterns in Data with Language Models via Interpretable Autoprompting”. arXiv.
  59. ^ Fernando, Chrisantha; Banarse, Dylan; Michalewski, Henryk; Osindero, Simon; Rocktäschel, Tim (2023). “Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution”. arXiv:2309.16797. Chú thích journal cần |journal= (trợ giúp)
  60. ^ Pryzant, Reid; Iter, Dan; Li, Jerry; Lee, Yin Tat; Zhu, Chenguang; Zeng, Michael (2023). “Automatic Prompt Optimization with "Gradient Descent" and Beam Search”. arXiv:2305.03495. Chú thích journal cần |journal= (trợ giúp)
  61. ^ Guo, Qingyan; Wang, Rui; Guo, Junliang; Li, Bei; Song, Kaitao; Tan, Xu; Liu, Guoqing; Bian, Jiang; Yang, Yujiu (2023). “Connecting Large Language Models with Evolutionary Algorithms Yields Powerful Prompt Optimizers”. arXiv:2309.08532. Chú thích journal cần |journal= (trợ giúp)
  62. ^ Zhou, Yongchao; Ioan Muresanu, Andrei; Han, Ziwen; Paster, Keiran; Pitis, Silviu; Chan, Harris; Ba, Jimmy (2022-11-01). "Large Language Models Are Human-Level Prompt Engineers". arΧiv:2211.01910 [cs.LG]. 
  63. ^ Zhang, Zhuosheng; Zhang, Aston; Li, Mu; Smola, Alex (2022-10-01). "Automatic Chain of Thought Prompting in Large Language Models". arΧiv:2210.03493 [cs.CL]. 
  64. ^ Monge, Jim Clyde (25 tháng 8 năm 2022). “Dall-E2 VS Stable Diffusion: Same Prompt, Different Results”. MLearning.ai (bằng tiếng Anh). Truy cập ngày 31 tháng 8 năm 2022.
  65. ^ a b c “Prompts”. Truy cập ngày 14 tháng 8 năm 2023.
  66. ^ “Stable Diffusion prompt: a definitive guide”. 14 tháng 5 năm 2023. Truy cập ngày 14 tháng 8 năm 2023.
  67. ^ Heikkilä, Melissa (16 tháng 9 năm 2022). “This Artist Is Dominating AI-Generated Art and He's Not Happy About It”. MIT Technology Review. Truy cập ngày 14 tháng 8 năm 2023.
  68. ^ Max Woolf (28 tháng 11 năm 2022). “Stable Diffusion 2.0 and the Importance of Negative Prompts for Good Results”. Truy cập ngày 14 tháng 8 năm 2023.
  69. ^ “Lumiere - Google Research”. Lumiere - Google Research. Truy cập ngày 25 tháng 2 năm 2024.
  70. ^ “Introducing Make-A-Video: An AI system that generates videos from text”. ai.meta.com (bằng tiếng Anh). Truy cập ngày 25 tháng 2 năm 2024.
  71. ^ “Video generation models as world simulators”. openai.com (bằng tiếng Anh). Truy cập ngày 25 tháng 2 năm 2024.
  72. ^ Team, PromptSora. “Understanding OpenAI's Sora: A Revolutionary Leap | PromptSora: Discover Prompts and Videos for Sora from Open AI”. PromptSora (bằng tiếng Anh). Truy cập ngày 25 tháng 2 năm 2024.
  73. ^ Gal, Rinon; Alaluf, Yuval; Atzmon, Yuval; Patashnik, Or; Bermano, Amit H.; Chechik, Gal; Cohen-Or, Daniel (2022). "An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion". arΧiv:2208.01618 [cs.CV]. ""Using only 3-5 images of a user-provided concept, like an object or a style, we learn to represent it through new "words" in the embedding space of a frozen text-to-image model."". 
  74. ^ Kirillov, Alexander; Mintun, Eric; Ravi, Nikhila; Mao, Hanzi; Rolland, Chloe; Gustafson, Laura; Xiao, Tete; Whitehead, Spencer; Berg, Alexander C. (2023-04-01). "Segment Anything". arΧiv:2304.02643 [cs.CV]. 
  75. ^ Li, Xiang Lisa; Liang, Percy (2021). “Prefix-Tuning: Optimizing Continuous Prompts for Generation”. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). tr. 4582–4597. doi:10.18653/V1/2021.ACL-LONG.353. S2CID 230433941. In this paper, we propose prefix-tuning, a lightweight alternative to fine-tuning... Prefix-tuning draws inspiration from prompting
  76. ^ Lester, Brian; Al-Rfou, Rami; Constant, Noah (2021). “The Power of Scale for Parameter-Efficient Prompt Tuning”. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. tr. 3045–3059. arXiv:2104.08691. doi:10.18653/V1/2021.EMNLP-MAIN.243. S2CID 233296808. In this work, we explore "prompt tuning," a simple yet effective mechanism for learning "soft prompts"...Unlike the discrete text prompts used by GPT-3, soft prompts are learned through back-propagation
  77. ^ Sun, Simeng; Liu, Yang; Iter, Dan; Zhu, Chenguang; Iyyer, Mohit (2023). "How Does In-Context Learning Help Prompt Tuning?". arΧiv:2302.11521 [cs.CL]. 
  78. ^ Shin, Taylor; Razeghi, Yasaman; Logan IV, Robert L.; Wallace, Eric; Singh, Sameer (tháng 11 năm 2020). “AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts”. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Online: Association for Computational Linguistics. tr. 4222–4235. doi:10.18653/v1/2020.emnlp-main.346. S2CID 226222232.
  79. ^ Willison, Simon (12 tháng 9 năm 2022). “Prompt injection attacks against GPT-3”. simonwillison.net (bằng tiếng Anh). Truy cập ngày 9 tháng 2 năm 2023.
  80. ^ Papp, Donald (17 tháng 9 năm 2022). “What's Old Is New Again: GPT-3 Prompt Injection Attack Affects AI”. Hackaday (bằng tiếng Anh). Truy cập ngày 9 tháng 2 năm 2023.
  81. ^ Vigliarolo, Brandon (19 tháng 9 năm 2022). “GPT-3 'prompt injection' attack causes bot bad manners”. www.theregister.com (bằng tiếng Anh). Truy cập ngày 9 tháng 2 năm 2023.