Modèle probabiliste de pertinenceLe modèle probabiliste de pertinence est un modèle probabiliste proposé en 1976 par Robertson et Jones[1] et utilisé en recherche d'information pour estimer la probabilité qu'un document soit une réponse pertinente à une requête. Il permet d'ordonner par utilité probable pour l'utilisateur une liste de documents. Une de ses applications directes est la méthode Okapi BM25, considérée comme l'une des plus performantes dans le domaine[Par qui ?]. ModélisationÉtant donné une requête q, il s'agit d'estimer un score s(D) pour chaque document D de la base de données considérée. Ce score doit exprimer la probabilité relative que le document soit pertinent pour la requête considérée. Dans ce modèle, on s'intéresse en effet plus à l'ordre relatif des documents renvoyés qu'à leur pertinence absolue. Similairement à d'autres modèles, on suppose que :
Sous ces conditions, on modélise la pertinence d'un document comme le ratio de probabilité que le document soit pertinent sur celle qu'il ne le soit pas : Considérant un vocabulaire , un document est caractérisé par la présence (noté abusivement ) ou l'absence () de chaque terme dans son contenu. En utilisant notamment le théorème de Bayes on peut montrer que le score du modèle probabiliste peut se mettre sous la forme: Où le poids dépend de la probabilité de présence du terme dans l'ensemble des documents pertinent et son complément. Expression du poidsConsidérons une base de documents, dont sont considérés pertinents pour la requête. En notant le nombre de documents contenant le terme , et le nombre de documents pertinents parmi ceux-ci, le poids du modèle probabiliste est donné par : Pour éviter les poids aberrants (prosaïquement, les divisions par 0), on propose un lissage de la formule : Si on néglige de considérer les documents pertinents pour la requête (), on retrouve l'expression dite probabiliste de la fréquence inverse de document : Voir aussi
Liens externesmodèles probabilistes (dans un cours de Recherche d'information) Références
|
Portal di Ensiklopedia Dunia