Modello della borsa di parole

Il modello della borsa di parole (in inglese: bag-of-words model, in sigla: BoW) è un metodo utilizzato nell'information retrieval e nell'elaborazione del linguaggio naturale per rappresentare documenti ignorando l'ordine delle parole. In questo modello, ogni documento è considerato in quanto contiene parole, analogamente a una borsa; ciò consente una gestione di queste basata su liste, dove ogni borsa contiene determinate parole di una lista. In visione artificiale si applica alla classificazione delle immagini, trattando l'immagine come caratteristiche (feature) di parole. In particolare, nell'object recognition, un'immagine può essere trattata come un documento e le caratteristiche rilevate in determinati punti dell'immagine si considerano "parole" visuali. Nella classificazione di documenti, la borsa di parole è un vettore sparso del numero di occorrenze delle parole, che non è altro che un istogramma sparso sul vocabolario. In visione artificiale una borsa di parole visuale è un vettore sparso di occorrenze del vocabolario di caratteristiche locali dell'immagine.

Applicazione

Nella filtrazione bayesiana dello spam, un messaggio di posta elettronica è modellato come una collezione disordinata di parole selezionata da una o due distribuzioni di probabilità: una rappresentante lo spam e una rappresentante e-mail legittimate. Mentre alcune parole saranno trovate in entrambe le "borse", altre saranno trovate solo nella borsa spam e altre solo nella borsa "non spam".

Voci correlate

Collegamenti esterni

  Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica