Model tas-kata-kataModel tas-kata-kata (bahasa Inggris: Bag-of-words model) ialah sebuah gambaran sederhana digunakan dalam pengolahan bahasa alami dan pencarian informasi.[1] Dikenal sebagai model ruang vektor.[2] Pada model ini, tiap kalimat dalam dokumen digambarkan sebagai token, mengabaikan tata bahasa dan bahkan urutan kata namun menghitung frekuensi kejadian atau kemunculan kata dari dokumen.[2][3] Contoh ImplementasiTerdapat dua dokumen teks sederhana D1 dan D2:[1] D1: "The Sun is a star. Sun is beautiful." D2: "The Moon is a satellite." Berdasar pada kedua dokumen tersebut, sebuah kamus dibangun: {
"The":1
"Sun":2
"is":3
"a":4
"star":5
"beautiful":6
"Moon":7
"satellite":8
}
Dokumen memiliki 8 kata berbeda. Tiap dokumen digambarkan sebagai 8 unsur vektor [1, 2, 2, 1, 1, 1, 0, 0] [1, 0, 1, 1, 0, 0, 1, 1] yang mana tiap entri dari vektor mengacu pada jumlah entri dalam kamus. Catatan kaki
|
Portal di Ensiklopedia Dunia