Modèle vectoriel


Modèle vectoriel

Un modèle vectoriel (parfois nommé sémantique vectorielle) est une méthode algébrique de représentation d'un document visant à rendre compte de sémantique. Elle est utilisée en recherche d'information, notamment pour la recherche documentaire, la classification ou le filtrage de données. Ce modèle concernait originellement les documents textuels et a été étendu depuis à d'autres types de contenus. Le premier exemple d'emploi de ce modèle est le système SMART.

Sommaire

Problématique

Le modèle vectoriel est une représentation mathématique du contenu d'un document, selon une approche algébrique.

L'ensemble de représentation des documents est un vocabulaire comprenant des termes d'indexation. Ceux-ci sont typiquement les mots les plus significatifs du corpus considéré: noms communs, noms propres, adjectifs... Éventuellement ils peuvent être des constructions plus élaborées comme des expressions ou des entités sémantiques). À chaque élément du vocabulaire est associé un index unique arbitraire.

Chaque contenu est ainsi représenté par un vecteur v, dont la dimension correspond à la taille du vocabulaire. Chaque élément vi du vecteur v consiste en un poids associé au terme d'indice i et à l'échantillon de texte. Un exemple simple est d'identifier vi au nombre d'occurrences du terme i dans l'échantillon de texte. La composante du vecteur représente donc le poids du mot i dans le document. L'un des schémas de pondération les plus usités est le TF-IDF.

Proximité entre documents

Étant donnée une représentation vectorielle d'un corps de documents, on peut introduire une notion d'espace vectoriel sur l'espace des documents en langage naturel. On en arrive à la notion mathématique de proximité entre documents.

Représentation de deux documents (d1 et d2) et d'une requête (q) dans un espace vectoriel. La proximité de la requête aux documents est représentée par les angles α et θ entre les vecteurs.

En introduisant des mesures de similarité adaptées, on peut quantifier la proximité sémantique entre différents documents. Les mesures de similarité sont choisies en fonction de l'application. Une mesure très utilisée est la similarité cosinus, qui consiste à quantifier la similarité entre deux documents en calculant le cosinus entre leurs vecteurs. La proximité d'une requête q à un document d1 sera ainsi donnée par:


\cos{\alpha} = \frac{\mathbf{d_1} \cdot \mathbf{q}}{\left\| \mathbf{d_1} \right\| \left \| \mathbf{q} \right\|}

En conservant le cosinus, nous exprimons bien une similarité. En particulier, une valeur nulle indique que la requête est strictement orthogonale au document. Physiquement, cela traduit l'absence de mots en commun entre q et d1. De plus, cette mesure n'est pas sensible à la norme des vecteurs, donc ne tient pas compte de la longueur des documents.

Applications

Parmi les applications existantes, on peut citer:

  • la catégorisation : regrouper automatiquement des documents dans des catégories pré-définies.
  • la classification : étant donné un ensemble de documents, déterminer automatiquement les catégories qui permettront de séparer les documents de la meilleure façon possible (catégorisation non supervisée).
  • la recherche documentaire : trouver les documents qui répondent le mieux à une requête (ce que fait un moteur de recherche) ; la requête de l'utilisateur est considérée comme un document, traduite en vecteur, et comparée aux vecteurs contenus dans le corpus des documents indexés.
  • Le filtrage : classer à la volée des documents dans des catégories pré-définies (par exemple, identifier un spam sur la base d'un nombre suspect d'occurrence du mot « pénis » dans un mail et l'envoyer automatiquement à la corbeille).

Avantages et inconvénients

Le modèle vectoriel est relativement simple à appréhender (algèbre linéaire) et est facile à implémenter. Il permet de retrouver assez efficacement des documents dans un corpus non structuré (recherche d'information), son efficacité dépendant pour une grande part à la qualité de la représentation (vocabulaire et schéma de pondération). La représentation vectorielle permet aussi une mise en correspondance des documents avec une requête imparfaite.

Il comporte également plusieurs limitations qui furent, pour certaines, corrigées par des affinements du modèle. En particulier, ce modèle suppose que les termes représentatifs sont indépendants. Ainsi, dans un texte, l'ordre des mots n'est pas pris en compte. Dans sa version la plus simple, il ne prend pas non plus en compte les synonymes ou la morphologie des contenus.

Voir aussi

Bibliographie

  • (en) Gerard Salton, M.J. McGill, Introduction to modern information retrieval, 1983 [détail des éditions]

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Modèle vectoriel de Wikipédia en français (auteurs)

Regardez d'autres dictionnaires:

  • Modele vectoriel — Modèle vectoriel Un modèle vectoriel (parfois nommé sémantique vectorielle) est une technique de représentation de la sémantique d un document. Elle est utilisée en recherche d information, notamment pour la recherche documentaire, la… …   Wikipédia en Français

  • Modèle Vectoriel — Un modèle vectoriel (parfois nommé sémantique vectorielle) est une technique de représentation de la sémantique d un document. Elle est utilisée en recherche d information, notamment pour la recherche documentaire, la classification ou le… …   Wikipédia en Français

  • modèle vectoriel — vektorinis modelis statusas T sritis fizika atitikmenys: angl. vector model vok. Vektormodell, n rus. векторная модель, f pranc. modèle vectoriel, m …   Fizikos terminų žodynas

  • Modèle booléen — Un modèle booléen est une méthode ensembliste de représentation du contenu d un document. C est l un des premiers modèles utilisés en recherche d information, permettant de fouiller automatiquement les grand corpus de bibliothèques. Il en existe… …   Wikipédia en Français

  • Vectoriel — Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom. Sur les autres projets Wikimedia : « Vectoriel », sur le Wiktionnaire (dictionnaire universel) L adjectif vectoriel fait référence à un… …   Wikipédia en Français

  • Modèle probabiliste de pertinence — Le modèle probabiliste de pertinence est une méthode probabiliste de représentation du contenu d un document, proposée en 1976 par Robertson et Jones[1]. Elle est utilisée en recherche d information pour exprimer une estimation de la probabilité… …   Wikipédia en Français

  • Fibre vectoriel — Fibré vectoriel En topologie différentielle, un fibré vectoriel est une construction géométrique ayant une parenté avec le produit cartésien, mais apportant une structure globale plus riche. Elle fait intervenir un espace topologique appelé base… …   Wikipédia en Français

  • Fibré Vectoriel — En topologie différentielle, un fibré vectoriel est une construction géométrique ayant une parenté avec le produit cartésien, mais apportant une structure globale plus riche. Elle fait intervenir un espace topologique appelé base et un espace… …   Wikipédia en Français

  • Fibré vectoriel — En topologie différentielle, un fibré vectoriel est une construction géométrique ayant une parenté avec le produit cartésien, mais apportant une structure globale plus riche. Elle fait intervenir un espace topologique appelé base et un espace… …   Wikipédia en Français

  • Espace Vectoriel — En algèbre linéaire, un espace vectoriel est une structure algébrique permettant en pratique d effectuer des combinaisons linéaires. Étant donné un corps (commutatif) K, un espace vectoriel E sur K est un groupe commutatif (dont la loi est notée… …   Wikipédia en Français