Modèle probabiliste de pertinence

Modèle probabiliste de pertinence

Le modèle probabiliste de pertinence est une méthode probabiliste de représentation du contenu d'un document, proposée en 1976 par Robertson et Jones[1]. Elle est utilisée en recherche d'information pour exprimer une estimation de la probabilité de pertinence d'un document par rapport à une requête, et ainsi classer une liste de documents dans l'ordre décroissant d'utilité probable pour l'utilisateur. L'une des applications directes de ce modèle est la méthode de pondération Okapi BM25, considérée comme l'une des plus performantes dans le domaine.

Sommaire

Modélisation

Étant donné une requête q, il s'agit d'estimer un score s(D) pour chaque document D de la base de données considérée. Ce score doit exprimer la probabilité relative que le document soit pertinent pour la requête considérée. Dans ce modèle, on s'intéresse en effet plus à l'ordre relatif des documents renvoyés qu'à leur pertinence absolue.

Similairement à d'autres modèles, on suppose que:

  • il existe des documents pertinents pour cette requête du point de vue de l'utilisateur (ensemble R de documents, les documents non pertinents étant le complément \bar{R} de cet ensemble dans la base)
  • la pertinence d'un document est indépendante des jugements portés sur les autres documents
  • l'utilité d'un document pertinent est indépendante du nombre de documents pertinents précédemment renvoyé

Sous ces conditions, on modélise la pertinence d'un document comme le ratio de probabilité que le document soit pertinent sur celle qu'il ne le soit pas:

s(D|q) = \frac{P(R|D)}{P(\bar{R}|D)}

Considérant un vocabulaire T={t_1,\dots,t_m}, un document est caractérisé par la présence (noté abusivement ti = 1) ou l'absence (ti = 0) de chaque terme dans son contenu. En utilisant notamment le théorème de Bayes on peut montrer que le score du modèle probabiliste peut se mettre sous la forme:

s(D|q) = \sum_{i=1}^m{w_i \times t_i}

Où le poids wi dépend de la probabilité de présence du terme ti dans l'ensemble des documents pertinent et son complément.

Expression du poids

Considérons une base de N documents, dont n sont considérés pertinent pour la requête. En notant Ri le nombre de documents contenant le terme ti, et ri le nombre de documents pertinents parmi ceux-ci, le poids du modèle probabiliste est donné par:

w_i=log\left( \frac{\frac{r_i}{n-r_i}}{\frac{R_i-r_i}{N-R_i-n+r_i}}\right)=log\left( \frac{r_i(N-R_i-n+r_i)}{(n-r_i)(R_i-r_i)}\right)

Pour éviter les poids aberrants (prosaïquement, les divisions par 0), on propose un lissage de la formule:

w_i=log\left( \frac{\frac{r_i+0.5}{n-r_i+0.5}}{\frac{R_i-r_i+0.5}{N-R_i-n+r_i+0.5}}\right)=log\left( \frac{(r_i+0.5)(N-R_i-n+r_i+0.5)}{(n-r_i+0.5)(R_i-r_i+0.5)}\right)

Si on néglige de considérer les documents pertinents pour la requête (n = ri = 0), on retrouve l'expression dite probabiliste de la fréquence inverse de document:

w_i=log\left( \frac{N-R_i}{R_i}\right)

Voir aussi

Liens externes

modèles probabilistes (dans un cours de Recherche d'information)

Références

  1. Erreur dans la syntaxe du modèle ArticleStephen E. Robertson et Karen Spärck Jones, « Relevance weighting of search terms », dans Journal of the American Society for Information Science, vol. 27, no 3, p. 129–146 [texte intégral] 



Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Modèle probabiliste de pertinence de Wikipédia en français (auteurs)

Игры ⚽ Поможем решить контрольную работу

Regardez d'autres dictionnaires:

  • Modèle booléen — Un modèle booléen est une méthode ensembliste de représentation du contenu d un document. C est l un des premiers modèles utilisés en recherche d information, permettant de fouiller automatiquement les grand corpus de bibliothèques. Il en existe… …   Wikipédia en Français

  • Modele des Croyances Transferables (MCT) — Modèle des croyances transférables La mesure d une grandeur physique par un capteur est généralement entachée d incertitude et d imprécision liées aux conditions de fonctionnement du capteur ainsi qu à ses limitations. Afin de prendre en compte… …   Wikipédia en Français

  • Modèle des Croyances Transférables (MCT) — Modèle des croyances transférables La mesure d une grandeur physique par un capteur est généralement entachée d incertitude et d imprécision liées aux conditions de fonctionnement du capteur ainsi qu à ses limitations. Afin de prendre en compte… …   Wikipédia en Français

  • Modèle des croyances transférables (mct) — Modèle des croyances transférables La mesure d une grandeur physique par un capteur est généralement entachée d incertitude et d imprécision liées aux conditions de fonctionnement du capteur ainsi qu à ses limitations. Afin de prendre en compte… …   Wikipédia en Français

  • Modèle des croyances transférables — Le MCT ou Modèle des croyances transférables est un modèle non probabiliste de « raisonnement incertain » reposant sur la théorie des fonctions de croyance. Il a été proposé et développé par Philippe Smets au début des années 90 Quand… …   Wikipédia en Français

  • Sac de mots — La représentation par sac de mots (ou bag of words en anglais) est une description de document (texte, image...) très utilisée en recherche d information. Sommaire 1 Principe général 1.1 Cas des textes 1.2 Cas des images …   Wikipédia en Français

  • Okapi BM25 — est une méthode de pondération utilisée en recherche d information. Elle est une application du modèle probabiliste de pertinence. Voir aussi TF IDF Modèle probabiliste Références …   Wikipédia en Français

  • Variable régionalisée — La VR comme phénomène physique : topographie de la ville de Binche …   Wikipédia en Français

  • Autostabilisation — L autostabilisation, ou auto stabilisation, est la propriété d un système réparti, composé de plusieurs machines capables de communiquer entre elles, qui consiste, lorsque le système est mal initialisé ou perturbé, à retourner automatiquement à… …   Wikipédia en Français

  • Scale-invariant feature transform — Exemple de résultat de la comparaison de deux images par la méthode SIFT (Fantasia ou Jeu de la poudre, devant la porte d’entrée de la ville de Méquinez, par Eug …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”