Språkmodell

En språkmodell är en statistisk modell, det vill säga en sannolikhetsfördelning, för sekvenser av ord.[1] Språkmodeller används i samband med artificiell intelligens (AI) för att datorers kommunikation ska efterlikna hur mänskligt språk, exempelvis mänskliga samtal, är uppbyggda.

Tillämpningar kan vara att datorer ska ge svar på frågor (natural language questions), sammanfatta dokument eller generera texter av olika slag, genre och språk.

En språkmodell tränas på ett textkorpus bestående av mängder med text för att "lära sig" sannolikheter för olika ord i olika språkkontext, exempelvis olika typer av dokument, eller vad som är trovärdiga svar på av användaren ställda, skriftliga frågor.

En stor språkmodell (large language model, LLM) har tränats på exempelvis en stor mängd böcker och stor andel av innehållet på webben. Stora språkmodeller ligger bakom flera uppmärksammade AI-textrobotar och digitala assistenter. Några av de största och mest välkända stora språkmodellerna är:

  • Open AI:s språkmodell GPT, som är grunden för flera applikationer:
    • Version GPT-3 har öppen källkod och används i det programkodsgenrerande verktyget Microsoft Github Copilot, som släpptes i juni 2021.
    • Version GPT-3.5 användes i gratisversionen av chatbotten ChatGPT, som släpptes i november 2022.
    • Version GPT-SW3 var en modell för nordiska språk som blev tillgänglig i november 2023.
    • Version GPT-4 är proprietär, och används i betalversionen av ChatGPT sedan mars 2023.
    • Version GPT-4 används även i AI-assistenten Microsoft Copilot, som släpptes i februari 2023, ursprungligen under namnet Bing Copilot, och som även ingår i Microsoft Edge och i Windows 11. En version anpassad för kontorsautomation kallas Microsoft 365 Copilot.
  • Alphabet har utvecklat flera stora språkmodeller. Gemini är en språkmodell och chatapplikation som lanserades i februari 2023 under namnet Bard.
  • Metas LLaMA (Large Language Model Meta AI)
  • Det franska företaget Mistral AI:s Mixtral 8x7B

Stora språkmodeller som har tränats på en stor mängd källkod för datorprogram, har även visat sig lovande i att skapa nya datorprogram genom automatiskt slutförande av påbörjad kod, eller från funktionsbeskrivningar skrivna på naturligt språk.[2]

Språkmodeller har sedan länge förekommit som komponent även inom annan språkteknologi (också kallat datalingvistik) såsom optisk teckenigenkänning (OCR), handskriftsigenkänning[3] och taligenkänning[4] (för att säkerställa att endast rimliga ordsekvenser, som har hög sannolikhet, förutsägs), vid maskinöversättning[5] (för att välja mellan alternativa kandidatöversättningar och för parsning[5]) samt i samband med text mining vid informationsinhämtning.[6][7]

Algoritmer

Många språkmodeller representeras av ett djupt artificiellt neuralt nätverk, exempelvis ett recurrent neural network(en) (återkommande neuralt nätverk) eller en transformator. [8] Detta kan kombineras med andra tekniker för maskininlärning, såsom förstärkningsinlärning för att låta människors omröstning om vad som är bra svar påverka språkmodellen.

Utifrån en given ordsekvens tilldelar en språkmodell en sannolikhet för sammanhängande hela ordsekvenser. Givet att språk kan användas för att uttrycka ett oändligt antal begripliga meningar, möter språkmodelleringen problemet att tilldela icke-noll-sannolikheter till språkligt begripliga meningar, vilka inte har lästs in i inträningsdatabasen. Olika ansatser har utvecklats för att klara av detta problem, till exempel att använda den så kallade Markovegenskapen eller att använda neurala arkitekturer. Dessa ansatser gör att språkmodellen blir generativ, i motsats till diskriminativa stokastiska modeller, som enbart kan modellera den betingade sannolikheten för observerade sekvenser.

Källor

  • Denna artikel är delvis baserad på artikeln Language model på engelskspråkiga Wikipedia.

Noter

  1. ^ Jurafsky, Dan; Martin, James H. (2021). ”N-gram Language Models”. Speech and Language Processing (3rd). https://web.stanford.edu/~jurafsky/slp3/. Läst 24 maj 2022. 
  2. ^ Xu, Frank F.; Alon, Uri; Neubig, Graham; Hellendoorn, Vincent Josua (2022-06-13). ”A systematic evaluation of large language models of code”. Proceedings of the 6th ACM SIGPLAN International Symposium on Machine Programming (Association for Computing Machinery): sid. 1–10. doi:10.1145/3520312.3534862. https://doi.org/10.1145/3520312.3534862. Läst 13 februari 2023. 
  3. ^ Pham, Vu, et al. "Dropout improves recurrent neural networks for handwriting recognition." 2014 14th International Conference on Frontiers in Handwriting Recognition. IEEE, 2014.
  4. ^ Kuhn, Roland, and Renato De Mori. "A cache-based natural language model for speech recognition." IEEE transactions on pattern analysis and machine intelligence 12.6 (1990): 570-583.
  5. ^ [a b] Andreas, Jacob, Andreas Vlachos, and Stephen Clark. "Semantic parsing as machine translation." Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2013.
  6. ^ (1998) "A language modeling approach to information retrieval" in Proceedings of the 21st ACM SIGIR Conference. {{{booktitle}}}: 275–281, ACM. DOI:10.1145/290941.291008. 
  7. ^ (1998) "A linguistically motivated probabilistically model of information retrieval" in Proceedings of the 2nd European conference on Research and Advanced Technology for Digital Libraries. {{{booktitle}}}: 569–584, LNCS, Springer. DOI:10.1007/3-540-49653-X_34. 
  8. ^ Google trials its own AI chatbot Bard after success of ChatGPT i The Guardian den 6 februari 2023