Mô hình ngôn ngữ lớn

Một mô hình ngôn ngữ lớn (LLM) là một mô hình ngôn ngữ với khả năng tổng quát trong việc tạo ngôn ngữ và các tác vụ xử lý ngôn ngữ tự nhiên khác. LLMs có được khả năng này bằng cách học các mối quan hệ thống kê từ các văn bản trong quá trình huấn luyện tự giám sát và bán giám sát có độ phức tạp tính toán cao.^[1] Các LLM có thể được sử dụng cho việc tạo văn bản, một dạng trí tuệ nhân tạo tạo sinh, bằng cách nhận đầu vào văn bản và liên tục dự đoán token hoặc từ tiếp theo.^[2]

LLM là các mạng nơ-ron nhân tạo. Các mô hình lớn nhất và mạnh mẽ nhất cho đến nay được xây dựng dựa trên một kiến trúc Transformer chỉ một chiều giải mã trong khi một số cài đặt gần đây dựa trên các kiến trúc khác, chẳng hạn như các biến thể của mạng nơ-ron hồi quy và Mamba (một mô hình trạng thái không gian).^[3]^[4]^[5]

Đến năm 2020, việc tinh chỉnh là cách duy nhất mà một mô hình có thể được điều chỉnh để có thể hoàn thành các tác vụ cụ thể. Tuy nhiên, các mô hình kích thước lớn hơn, chẳng hạn như GPT-3, có thể thông qua kỹ thuật lời nhắc để đạt được kết quả tương tự.^[6] Người ta cho rằng chúng có được kiến thức về cú pháp, ngữ nghĩa và các khái niệm trong các tập ngữ liệu của con người, nhưng cũng gặp phải những sai sót và thiên vị có trong các tập ngữ liệu đó.^[7]

Một số LLM nổi bật bao gồm GPT của OpenAI (chẳng hạn như GPT-3.5 và GPT-4, được sử dụng trong ChatGPT và Microsoft Copilot), PaLM của Google và Gemini (Gemini hiện được sử dụng trong chatbot cùng tên), Grok của xAI, LLaMA của Meta, các mô hình Claude của Anthropic và các mô hình nguồn mở của Mistral AI.

Tham khảo

^ “Better Language Models and Their Implications”. OpenAI. 14 tháng 2 năm 2019. Lưu trữ bản gốc ngày 19 tháng 12 năm 2020. Truy cập ngày 25 tháng 8 năm 2019.
^ Bowman, Samuel R. (2023). "Eight Things to Know about Large Language Models". arΧiv:2304.00612 [cs.CL].
^ Peng, Bo; Alcaide, Eric; Anthony, Quentin; Albalak, Alon; Arcadinho, Samuel; Biderman, Stella; Cao, Huanqi; Cheng, Xin; Chung, Michael (2023). "RWKV: Reinventing RNNS for the Transformer Era". arΧiv:2305.13048 [cs.CL].
^ Merritt, Rick (25 tháng 3 năm 2022). “What Is a Transformer Model?”. NVIDIA Blog (bằng tiếng Anh). Truy cập ngày 25 tháng 7 năm 2023.
^ Gu, Albert; Dao, Tri (1 tháng 12 năm 2023), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752
^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (tháng 12 năm 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. (biên tập). “Language Models are Few-Shot Learners” (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877–1901.
^ Manning, Christopher D. (2022). “Human Language Understanding & Reasoning”. Daedalus. 151 (2): 127–138. doi:10.1162/daed_a_01905. S2CID 248377870.

[:7-1] “Better Language Models and Their Implications”. OpenAI. 14 tháng 2 năm 2019. Lưu trữ bản gốc ngày 19 tháng 12 năm 2020. Truy cập ngày 25 tháng 8 năm 2019.

[Bowman-2] Bowman, Samuel R. (2023). "Eight Things to Know about Large Language Models". arΧiv:2304.00612 [cs.CL].

[3] Peng, Bo; Alcaide, Eric; Anthony, Quentin; Albalak, Alon; Arcadinho, Samuel; Biderman, Stella; Cao, Huanqi; Cheng, Xin; Chung, Michael (2023). "RWKV: Reinventing RNNS for the Transformer Era". arΧiv:2305.13048 [cs.CL].

[4] Merritt, Rick (25 tháng 3 năm 2022). “What Is a Transformer Model?”. NVIDIA Blog (bằng tiếng Anh). Truy cập ngày 25 tháng 7 năm 2023.

[5] Gu, Albert; Dao, Tri (1 tháng 12 năm 2023), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752

[few-shot-learners-6] Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (tháng 12 năm 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. (biên tập). “Language Models are Few-Shot Learners” (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877–1901.

[Manning-2022-7] Manning, Christopher D. (2022). “Human Language Understanding & Reasoning”. Daedalus. 151 (2): 127–138. doi:10.1162/daed_a_01905. S2CID 248377870.

[1]

[2]

[3]

[4]

[5]

[6]

[7]