Corpus


Corpus
Page d'aide sur l'homonymie Pour les articles homonymes, voir Corpus (homonymie) et Corps.

Un corpus est un ensemble de documents, artistiques ou non (textes, images, vidéos, etc.), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, etc.

Sommaire

Le corpus en linguistique

La branche de la linguistique qui se préoccupe plus spécifiquement des corpus s'appelle logiquement la linguistique de corpus. Elle est liée au développement des systèmes informatiques, en particulier à la constitution de bases de données textuelles.

On parle de corpus pour désigner l'aspect normatif de la langue : sa structure et son code en particulier. "Corpus" est généralement opposé à "status" (ou statut), qui correspond aux conditions d'utilisation de la langue. Cette opposition est commune dans l'étude des politiques linguistiques.

Le corpus en littérature

Le corpus regroupe un ensemble de textes ayant une visée commune. Un corpus peut être constitué de documents différents (tableau, extrait de texte...) et ces documents divers ont un point en commun. En général c'est le thème qui fait figure de leur ressemblance. Il faut avoir une technique particulière pour le déchiffrer.

Le corpus dans la science

Les corpus sont des outils indispensables et précieux en traitement automatique du langage naturel. Ils permettent en effet d'extraire un ensemble d'information utile pour des traitements statistiques.

D'un point de vue informatif, ils permettent d'extraire des tendances et notamment de construire des ensembles de n-grammes.

D'un point de vue méthodologique, ils apportent une objectivité nécessaire à la validation scientifique en traitement automatique du langage naturel. L'information n'est plus empirique, elle est vérifiée par le corpus. Il est donc possible de s'appuyer sur des corpus (à condition qu'ils soient bien formés) pour formuler et vérifier des hypothèses scientifiques.

Corpus bien formé

Plusieurs caractéristiques sont à prendre en compte pour la création d'un corpus bien formé :

  • la taille ;
  • le langage du corpus ;
  • le temps couvert par les textes du corpus ;
  • le registre ;

Taille

Le corpus doit évidemment atteindre une taille critique pour permettre des traitements statistiques fiables. Il est impossible d'extraire des informations fiables à partir d'un corpus trop petit (voir Statistiques).

Langage

Un corpus bien formé doit nécessairement couvrir un seul langage, et une seule déclinaison de ce langage. Il existe par exemple de subtiles différences entre le français de France et le français parlé en Belgique. Il ne sera donc pas possible de tirer des conclusions fiables à partir d'un corpus franco-belge sur le français de France, ni sur le français de Belgique.

Temps couvert par les textes du corpus

Le temps joue un rôle important dans l'évolution du langage : le français parlé aujourd'hui ne ressemble pas au français parlé il y a 200 ans ni, de façon plus subtile, au français parlé il y a 10 ans, à cause notamment des néologismes. C'est un phénomène à prendre en compte pour toutes les langues vivantes. Un corpus ne doit donc pas contenir de textes rédigés à des intervalles de temps trop larges.

Registre de langage

Il ne faut pas non plus mélanger des registres différents et le scientifique ne peut s'autoriser à extraire des informations d'un corpus destiné à un certain registre en les appliquant à un autre. Un corpus construit à partir de textes scientifiques ne peut être utilisé pour extraire des informations sur les textes vulgarisés, et un corpus mélangeant des textes scientifiques et vulgarisés ne permettra de tirer aucune conclusion sur ces deux registres.

Méthodologie

Il serait maladroit d'un point de vue méthodologique d'appliquer des traitements statistiques sur le corpus qui a permis de faire ressortir un classement ou une modélisation du langage.

Lorsque l'on travaille avec des corpus, il convient donc de séparer un corpus initial en deux sous-corpus:

  • le corpus d'apprentissage, qui sert à retirer un modèle ou un classement à partir d'un nombre suffisant d'information ;
  • le corpus de test, qui sert à vérifier la qualité de l'apprentissage à partir du corpus d'apprentissage.

Le calibrage des volumes des corpus se discute en fonction du problème, mais il est fréquent d'utiliser les 2/3 du corpus initial pour l'apprentissage et le tiers restant pour effectuer les tests.

Lorsque le volume du corpus initial n'est pas suffisant, il est possible de croiser les corpus de tests et d'apprentissage sur plusieurs expérimentations. Par exemple, si l'on découpe le corpus initial en 10 sous-corpus, numérotés de 1 à 10

  • Expérience 1 : utilisation des corpus 1 à 8 en apprentissage, et 9 et 10 pour les tests;
  • Expérience 2 : utilisation des corpus 1 à 6 et 9 et 10 en apprentissage, 7 et 8 pour les tests;
  • ...

La mesure de qualité des résultats (précision ou rappel) est alors plus précise, mais en aucun cas les corpus d'apprentissage et de tests n'ont été mélangé.

Corpus parallèles et corpus comparables

Corpus parallèles

On appelle corpus parallèle un ensemble de couples de textes tel que, pour un couple, un des textes est la traduction de l'autre. Il est intéressant d'aligner ces corpus, c'est-à-dire de faire correspondre chaque unité du texte en langue source avec chaque unité de texte en langue cible (au niveau des paragraphes, phrases et mots) pour disposer d'un jeu de donnée bilingue, en particulier dans des domaines spécialisés où le vocabulaire et l'usage des mots et des expressions évolue rapidement.

À titre d'exemple, au 26 octobre 2006, les versions françaises et anglaise des articles Déclin de l'Empire romain d'Occident et Decline of the Roman Empire sont des textes parallèles. Le texte source est la version anglaise, la version française est la cible, issue de la traduction.

Bien que les textes soient dits parallèles, la traduction engendre des différences structurelles entre les textes. Certaines expressions peuvent-être traduite par un nombre différent de mots. Par exemple « Theories about the decline and fall of the Roman Empire » est composé de 10 mots alors que sa traduction « Théories du déclin de l'Empire romain » n'est composé que de 7 mots. De la même façon, des phrases dans le texte source sont susceptibles d'être regroupées dans la traduction, ou, à l'inverse, scindées. Le parallélisme n'est donc jamais parfait et les méthodes d'alignement doivent en tenir compte.

Les corpus de textes parallèles sont toutefois relativement rares. À titre d'exemple, citons le Hansard canadien, qui est le compte rendu des Débats de la Chambre des communes canadienne, publié en français et en anglais.

Corpus comparables

La linguistique de corpus ayant besoin de jeux de données volumineux pour travailler, les corpus parallèles sont certes très précieux mais trop rares pour suffire à tous les usages.

Les corpus comparables sont largement plus répandus. Déjean & Gaussier (2002)[1] donnent la définition suivante de corpus comparable

« Deux corpus de deux langues l1 et l2 sont dits comparables s'il existe une sous-partie non négligeable du vocabulaire du corpus de langue l1, respectivement l2, dont la traduction se trouve dans le corpus de langue l2, respectivement l1. »

Un corpus comparable est donc composé de textes dans des langues différentes mais partageant une partie du vocabulaire employé, ce qui implique généralement que les textes parlent d'un même sujet, à la même époque et dans un registre comparable. Une sélection d'articles de journaux dans différentes langues, traitant d'une même actualité internationale et à la même époque constitue un bon exemple de corpus comparable.

L'alignement ne peut donc plus s'appuyer sur la structure du texte (qui n'a pas à être identique d'une langue à l'autre) et les approches proposées cherchent plutôt à prendre en compte le contexte de chaque terme à aligner, c'est-à-dire la façon dont ils sont employés et les mots avec lesquels ils co-occurrent dans le texte.

Voir aussi

Sur les autres projets Wikimedia :

Notes et références

  1. Hervé Dejean & Éric Gaussier, une nouvelle approche à l'extraction de lexique bilingues à partir de corpus comparables, 2002 lire en ligne

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Corpus de Wikipédia en français (auteurs)

Regardez d'autres dictionnaires:

  • corpus — [ kɔrpys ] n. m. • 1863; « hostie » fin XIIe; mot lat. « corps » 1 ♦ Dr. Recueil de pièces, de documents concernant une même discipline. Corpus d inscriptions latines et grecques. 2 ♦ (1961) Ling. Ensemble fini d énoncés réels réuni en vue de l… …   Encyclopédie Universelle

  • Corpus — (Latin plural corpora, English plural corpuses or corpora) is Latin for body. It may refer to: Contents 1 Law 2 Biology …   Wikipedia

  • corpus — (izg. kȍrpus) m DEFINICIJA knjiga s više različitih tekstova, ob. povezana općom temom ili svrhom; zbirka, zbornik, usp. korpus SINTAGMA corpus alienum (izg. corpus aliénum) strano tijelo; corpus delicti (izg. corpus delìkti) predmet kojim je… …   Hrvatski jezični portal

  • corpus — cor·pus / kȯr pəs, ˌpu̇s/ n pl cor·po·ra / pə rə/: the main body of a thing; specif: the principal of a fund, trust, or estate as distinct from income or interest: res Merriam Webster’s Dictionary of Law. Merriam Webster. 1996 …   Law dictionary

  • corpus — CÓRPUS, corpusuri, s.n. (livr.) Culegere sau colecţie de texte, documente, inscripţii, legi etc. – Din lat. corpus. Trimis de ana zecheru, 13.09.2007. Sursa: DEX 98  CÓRPUS s. corp. (Un corpus de legi.) Trimis de siveco, 05.08.2004. Sursa:… …   Dicționar Român

  • CORPUS — praeter signiicatum commune, Latinis opus quoque notat, quod in multas esset digestum partes pluresque libros coneineret; sicut corpus animalis plura membra. Sic Firmicus opus suum de Mathesi quod multis libris explicatur, Corpus appellat et… …   Hofmann J. Lexicon universale

  • corpus — 1. ‘Conjunto de datos o textos de un mismo tipo que sirve de base a una investigación’. Es invariable en plural (→ plural, 1f y k): «En el caso de corpus demasiado abundantes se hace necesario tomar solamente una muestra» (Quezada Mensaje [Chile… …   Diccionario panhispánico de dudas

  • Corpus — Cor pus ( p[u^]s), n.; pl. {Corpora} ( p[ o]*r[.a]). [L.] A body, living or dead; the corporeal substance of a thing. [1913 Webster] {Corpus callosum} (k[a^]l*l[=o] s[u^]m); pl. {Corpora callosa} ( s?) [NL., callous body] (Anat.), the great band… …   The Collaborative International Dictionary of English

  • Corpus — Saltar a navegación, búsqueda El término Corpus puede referirse a: Corpus lingüístico, conjunto de ejemplos reales de uso de una lengua; Corpus, abreviación de la fiesta del Corpus Christi; Corpus, municipio del departamento de San Ignacio… …   Wikipedia Español

  • corpus — (pl. corpora), late 14c., from L. corpus, lit. body (see CORPOREAL (Cf. corporeal)). The sense of body of a person (mid 15c. in English) and collection of facts or things (1727 in English) were both present in Latin. Corpus Christi (late 14c.),… …   Etymology dictionary

  • corpus — (plural corpus, preferible a corpora) sustantivo masculino 1. Uso/registro: elevado. Conjunto de datos ordenados o de textos sobre una determinada materia, que pueden servir de base a una investigación: El corpus de la tesis doctoral se encuentra …   Diccionario Salamanca de la Lengua Española


Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”

We are using cookies for the best presentation of our site. Continuing to use this site, you agree with this.