SpråkmodellEn språkmodell är en statistisk modell, det vill säga en sannolikhetsfördelning, för sekvenser av ord.[1] Språkmodeller används i samband med artificiell intelligens (AI) för att datorers kommunikation ska efterlikna hur mänskligt språk, exempelvis mänskliga samtal, är uppbyggda. Tillämpningar kan vara att datorer ska ge svar på frågor (natural language questions), sammanfatta dokument eller generera texter av olika slag, genre och språk. En språkmodell tränas på ett textkorpus bestående av mängder med text för att "lära sig" sannolikheter för olika ord i olika språkkontext, exempelvis olika typer av dokument, eller vad som är trovärdiga svar på av användaren ställda, skriftliga frågor. En stor språkmodell (large language model, LLM) har tränats på exempelvis en stor mängd böcker och stor andel av innehållet på webben. Stora språkmodeller ligger bakom flera uppmärksammade AI-textrobotar och digitala assistenter. Några av de största och mest välkända stora språkmodellerna är:
Stora språkmodeller som har tränats på en stor mängd källkod för datorprogram, har även visat sig lovande i att skapa nya datorprogram genom automatiskt slutförande av påbörjad kod, eller från funktionsbeskrivningar skrivna på naturligt språk.[2] Språkmodeller har sedan länge förekommit som komponent även inom annan språkteknologi (också kallat datalingvistik) såsom optisk teckenigenkänning (OCR), handskriftsigenkänning[3] och taligenkänning[4] (för att säkerställa att endast rimliga ordsekvenser, som har hög sannolikhet, förutsägs), vid maskinöversättning[5] (för att välja mellan alternativa kandidatöversättningar och för parsning[5]) samt i samband med text mining vid informationsinhämtning.[6][7] AlgoritmerMånga språkmodeller representeras av ett djupt artificiellt neuralt nätverk, exempelvis ett recurrent neural network(en) (återkommande neuralt nätverk) eller en transformator. [8] Detta kan kombineras med andra tekniker för maskininlärning, såsom förstärkningsinlärning för att låta människors omröstning om vad som är bra svar påverka språkmodellen. Utifrån en given ordsekvens tilldelar en språkmodell en sannolikhet för sammanhängande hela ordsekvenser. Givet att språk kan användas för att uttrycka ett oändligt antal begripliga meningar, möter språkmodelleringen problemet att tilldela icke-noll-sannolikheter till språkligt begripliga meningar, vilka inte har lästs in i inträningsdatabasen. Olika ansatser har utvecklats för att klara av detta problem, till exempel att använda den så kallade Markovegenskapen eller att använda neurala arkitekturer. Dessa ansatser gör att språkmodellen blir generativ, i motsats till diskriminativa stokastiska modeller, som enbart kan modellera den betingade sannolikheten för observerade sekvenser. Källor
Noter
|