InformationssökningInformationssökning (IR från engelska information retrieval) innebär inom informationsteknik att information i datorlagrad form söks ut med hjälp av olika tekniker och teknologier. Informationssökning levererar en mängd dokumentreferenser till användare för vidare urval. Sökmotorer är den kanske vanligaste tillämpningen av informationssökningsteknologi. Informationssökningssystem har traditionellt delats in i booleska system och probabilistiska system. Båda typerna av informationsökningssystem är byggda med algoritmer grundar sig på att ord i text är lätta att identifiera och räkna. De första någorlunda systematiska formella ansatserna att använda ordstatistik publicerades i slutet av 1950-talet av pionjärern Hans-Peter Luhn [1]. Tanken är att ord som har rimlig förekomststatistik är mest informativa i en text: de vanligaste orden i en text är inte innehållsbärande (och, att, det, är) och de ovanliga mest slumpmässiga förekomster eller brus. Modeller för informationssökningVid digital informationssökning, representeras dokument enligt olika modeller. Modellerna kan delas upp baserat på underliggande matematisk grund i:
Algebraiska modellerAlgebraiska modeller för informationssökning representerar vanligen på något plan dokument och söksträngar som vektorer i ett n-dimensionellt vektorrum. Varje dimension representerar en specifik term, alltså finns lika många dimensioner som det finns termer i de texter som representeras. En sökfråga som vanligen består av ett litet antal termer representeras som en vektorsumma av dessa termer och ett dokument likaså som en vektorsumma, ofta med viss dämpning av höga frekvenser för vanliga termer. Det finns flera sätt att vikta termer. Det mest grundläggande är tf-idf (termfrekvens-inverterad dokumentfrekvens). Med denna viktning värderas ovanliga termer i dokumentsamlingen högt. Mer sofistikerade modeller tar även hänsyn till dokumentets längd och till feedback från användaren.[2] I den klassiska vektorrymdsmodellen beräknas likheten mellan dokument och söksträng som vinklar mellan vektorerna i vektorrummet, något som har använts sedan sjuttiotalet[3] Ett sådant vektorrum har mycket hög dimensionalitet med många ganska oviktiga dimensioner som representerar termer som saknar betydelse i de flesta sammanhang. Det finns flera ansatser att hantera dimensionaliteten mer effektivt genom dimensionsreduktion av olika slag. En vanlig sådan ansats är latent semantisk indexering[4], LSI, en metod som använder singulärvärdesuppdelning för att hitta mönster i dokumentsamlingen. LSI bygger på antagandet att termer som används i samma kontext har liknande betydelser. Genom att jämföra de underliggande latenta semantiska strukturer som termernas bruk vittnar om kan metoden till viss del hantera synonymer och flertydighet. Utvärdering av informationssökningFlera olika mätetal för utvärdering av informationssökning har utvecklats, täckning och precision är de mest kända. Mätetalen värderar en söksträngs sökresultat i en dokumentsamling. De enklaste modellerna bygger på det förenklade antagandet att alla dokument antingen är relevanta eller irrelevanta för ett givet informationsbehov. TäckningTäckning är andelen relevanta dokument i dokumentsamlingen som hittades av söksträngen. Det kan tolkas som sannolikheten att ett relevant dokument finns bland sökresultaten. Man kan alltid uppnå 100 % täckning genom att returnera samtliga dokument i samlingen oavsett söksträng, alltså krävs ytterligare mätetal för att utvärdera informationssökning. PrecisionPrecision är andelen funna dokument som är relevanta. Övriga mätetal
Relevans som målbegreppAntagandet att dokument är antingen relevanta eller irrelevanta går dels att ifrågasätta för varje enskilt dokument: vissa är mer innehållsdigra än andra, men också för en samling dokument, där inte varje dokument i en serie är lika värdefullt som andra. Nyare modeller använder därför ofta flervärda relevansbedömningar, som till exempel irrelevant-marginellt relevant-ganska relevant-mycket relevant. [5] Referenser
Noter
|