Information retrievalInformation retrieval (IR) houdt zich bezig met het zoeken naar informatie in documenten, naar documenten zelf en naar metadata die de documenten beschrijven, alsook naar het zoeken binnen databases naar tekst, audio, beelden of data. De termen data retrieval, document retrieval, information retrieval en text retrieval worden vaak door elkaar gebruikt, hoewel ze elk over eigen literatuur, theorie, praktijk en technologieën beschikken. De term "information retrieval" is afkomstig van Calvin Mooers in 1948-50. ModellenIn de information retrieval worden verschillende (wiskundige) modellen gebruikt om documenten en query's te representeren. De basismodellen zijn het booleaanse, het probabilistische en het vectorruimtemodel. VectorruimtesIn het vectorruimtemodel wordt een verzameling documenten gerepresenteerd als een verzameling vectoren in een hoogdimensionale ruimte, als volgt. Eerst wordt ieder document in gereduceerd tot een verzameling termen met bijbehorende absolute frequenties. Doorgaans zijn termen de woorden die in het document voorkomen, na verwijdering van veel voorkomende woorden als de, het, voor enz. (de 'stopwoorden'). De resulterende bag of words wordt door toepassing van wegingsfuncties omgezet in een vector in een -dimensionale ruimte, waarbij het totaal aantal termen in alle documenten van is. Hierbij correspondeert elke unieke term met één dimensie van ; de waarde in die dimensie wordt bepaald door weging van de frequentie van . Als een term in een document niet voorkomt, is de waarde in de corresponderende dimensie 0. De query wordt een soortgelijk proces onderworpen met een vector als resultaat. De weging van termen geschiedt meestal door normalisering t.o.v. de meest frequente term in het document (term frequency, tf) gevolgd door deling door het aantal documenten waarin de term voorkomt (inverse document frequency, idf); deze wegingsmethode wordt tf×idf genoemd. Er bestaan talloze varianten op dit schema en vaak worden documenten en query's iets verschillende formules gebruikt. Vervolgens kan een query gebruikt worden om de documenten in te rangschikken van meest naar minst relevant door de afstand of hoek (afgeleid uit het inproduct) tussen de vectoren en te meten. De documenten die de kleinste hoek met de vector hebben, worden verondersteld het meest relevant te zijn. EvaluatieMetrieken
EvaluatieplatformsIn 1992 lanceerde het Amerikaanse Department of Defense, samen met het National Institute of Standards and Technology (NIST), de Text REtrieval Conference (TREC) als onderdeel van het TIPSTER tekstprogramma. Het doel van TREC is het verschaffen van de infrastructuur die nodig is ter ondersteuning van grootschalige evaluaties van tekst-retrieval methodologieën. In 2000 werd een Europese tegenhanger van TREC opgericht, de Cross-Language Evaluation Forum (CLEF). Belangrijke information retrieval onderzoeksgroepen
Literatuur
|