Modello linguistico di grandi dimensioniUn modello linguistico di grandi dimensioni (anche modello linguistico ampio o modello linguistico grande),[1] noto anche con l'inglese large language model (in sigla LLM) è un tipo di modello linguistico notevole per essere in grado di ottenere la comprensione e la generazione di linguaggio di ambito generale. Gli LLM acquisiscono questa capacità adoperando enormi quantità di dati per apprendere miliardi di parametri nell'addestramento e consumando grandi risorse di calcolo nell'operatività. L'aggettivo "grande" presente nel nome si riferisce alla grande quantità di parametri del modello probabilistico (nell'ordine dei miliardi).[2] Gli LLM sono in larga parte reti neurali artificiali e in particolare trasformatori[3] e sono (pre-)addestrati usando l'apprendimento autosupervisionato o l'apprendimento semisupervisionato. In quanto modelli linguistici autoregressivi, funzionano prendendo in ingresso un testo e predicendo ripetutamente la parola o il simbolo immediatamente successivi.[4] Fino al 2020, la regolazione fine dei parametri era l'unico modo di adattare un modello affinché fosse capace di compiere determinati compiti. Invece, per modelli più grandi, come GPT-3, risultati simili possono essere ottenuti lavorando sul testo in ingresso (detto prompt, "spunto"), con un processo di ingegnerizzazione dello stesso chiamato appunto in inglese prompt engineering.[5] Si pensa che questo genere di modelli acquisiscano implicitamente la conoscenza della sintassi, della semantica e della "ontologia" intrinseche nei corpi linguistici usati nell'addestramento, ma al contempo imprecisioni o pregiudizi eventualmente presenti negli stessi testi.[6] Le principali sfide attuali di questi grandi modelli comprendono, tra le altre cose, errori fattuali,[7] pregiudizi linguistici,[8] pregiudizi di genere,[9] pregiudizi razziali[10] e pregiudizi politici.[11] Esempi noti di modelli linguistici grandi sono i modelli GPT di OpenAI (ad esempio GPT-3, oppure GPT-3.5 e GPT-4, usati in ChatGPT), PaLM di Google (usato in Gemini), e LLaMa di Meta, nonché BLOOM, Ernie 3.0 Titan, e Claude 2 di Anthropic. Bias e limitazioniBias e limitazioni del modello linguistico sono ricerche in corso nel campo dell'elaborazione del linguaggio naturale (NLP). Sebbene i modelli linguistici abbiano mostrato notevoli capacità nel generare testo simile a quello umano, sono suscettibili di ereditare e amplificare i pregiudizi presenti nei loro dati di addestramento. Ciò può manifestarsi in rappresentazioni distorte o in un trattamento ingiusto di diversi dati demografici, come quelli basati su razza, genere, lingua e gruppi culturali. Inoltre, questi modelli spesso presentano limitazioni in termini di accuratezza fattuale. Lo studio e la mitigazione di questi pregiudizi e limitazioni sono cruciali per lo sviluppo etico e l’applicazione dell’IA in diversi ambiti sociali e professionali. Bias linguisticiIl bias linguistico si riferisce a un tipo di bias di campionamento statistico legato alla lingua di una query che porta a "una deviazione sistematica nel campionamento delle informazioni che impedisce di rappresentare accuratamente la vera copertura degli argomenti e dei punti di vista disponibili nel loro archivio."[8] Luo et al.[8] mostrano che gli attuali modelli linguistici di grandi dimensioni, poiché sono formati prevalentemente su dati in lingua inglese, spesso presentano le opinioni anglo-americane come verità, mentre minimizzano sistematicamente le prospettive non inglesi come irrilevanti, sbagliate o rumorose. Interrogato su ideologie politiche come "Cos'è il liberalismo?", ChatGPT, poiché è stato formato su dati incentrati sull'inglese, descrive il liberalismo dalla prospettiva anglo-americana, enfatizzando aspetti dei diritti umani e dell'uguaglianza, mentre aspetti altrettanto validi come "si oppone allo stato sono assenti l'intervento nella vita personale ed economica" dal punto di vista dominante vietnamita e la "limitazione del potere governativo" dal punto di vista prevalente cinese.[8] Bias di genereIl pregiudizio di genere si riferisce alla tendenza di questi modelli a produrre risultati che sono ingiustamente pregiudizievoli verso un genere rispetto a un altro. Questo pregiudizio deriva tipicamente dai dati su cui vengono addestrati questi modelli. Ad esempio, i modelli linguistici di grandi dimensioni spesso assegnano ruoli e caratteristiche in base alle norme di genere tradizionali; potrebbe associare infermieri o segretari prevalentemente a donne e ingegneri o amministratori delegati a uomini.[9] StereotipiAl di là del genere e della razza, questi modelli possono rafforzare un’ampia gamma di stereotipi, compresi quelli basati sull’età, sulla nazionalità, sulla religione o sull’occupazione. Ciò può portare a risultati che generalizzano ingiustamente o caricaturano gruppi di persone, talvolta in modi dannosi o dispregiativi.[12][13] Bias politicoIl pregiudizio politico si riferisce alla tendenza degli algoritmi a favorire sistematicamente determinati punti di vista, ideologie o risultati politici rispetto ad altri. I modelli linguistici possono anche mostrare pregiudizi politici. Poiché i dati di formazione includono un'ampia gamma di opinioni e coperture politiche, i modelli potrebbero generare risposte che si orientano verso particolari ideologie o punti di vista politici, a seconda della prevalenza di tali opinioni nei dati.[11] Note
Altri progetti
Collegamenti esterni
|