Induzione di significatiIn linguistica computazionale, l'induzione (o discriminazione) di significati è un problema aperto di elaborazione del linguaggio naturale che consiste nell'identificazione automatica dei significati di una parola. Essendo l'output di un sistema di induzione di significati è un insieme di sensi (inventario) per la parola obiettivo, questo task è strettamente correlato a quello della disambiguazione, che si fonda invece su un inventario di significati predefinito e mira a risolvere il problema della ambiguità delle parole in un contesto. MetodiL'output di un sistema di induzione di significati è un clustering di contesti in cui la parola obiettivo appare o, in alternativa, un clustering di parole correlate alla parola obiettivo (co-occorrenze). Sono stati proposti in letteratura tre approcci principali[1]:
Clustering di contestiNel clustering di contesti ciascuna occorrenza di una parola obiettivo è rappresentata come un vettore di contesto. Tali vettori sono quindi raggruppati in cluster, uno per ogni diverso significato della parola obiettivo. Un approccio storico di questo tipo è basato sul concetto di spazio delle parole (word space)[2], ovvero vettori le cui dimensioni sono parole. Clustering di paroleUn secondo approccio consiste nel raggruppamento di parole che sono semanticamente simili e convogliano quindi un significato specifico della parola obiettivo. Metodi di questo tipo includono l'algoritmo di Lin[3] e l'algoritmo Clustering by Committee[4]. Grafi di co-occorrenzeIl terzo approccio all'induzione di significati è basato sulla nozione di grafo di co-occorrenze, ovvero un grafo i cui vertici sono parole correlate alla parola obiettivo e i cui archi collegano parole che co-occorrono tra loro all'interno di corpora di riferimento. Metodi di questo tipo includono: l'uso del Markov clustering algorithm[5], HyperLex[6] e relative varianti[7]. Applicazioni
Note
Voci correlate |
Portal di Ensiklopedia Dunia