Simplification de textes

Simplification de textes

La simplification de textes(TS) est une opération utilisée dedans en traitement automatique du langage naturel pour modifier, augmenter, classifier ou traiter autrement un corpus existant de texte lisible pour l'homme de telle manière que la grammaire et la structure de la prose soit considérablement simplifiée, tandis que la signification fondamental et l'information restent les mêmes. La simplification des textes est un domaine de recherche important, parce que les langues humaines normales contiennent habituellement des constructions composées complexes qui ne sont pas facilement traitées à travers automation.

Sommaire

Généralités

Pourquoi Simplifier des textes ?

Des phrases longes et compliquées posent des problèmes divers à de nombreux état de l'art des technologies du langage naturel.

Par exemple, dans la décomposition analytique, quand des phrases deviennent syntaxiquement plus complexe, le nombre d'analyseurs s'accroît, et il y a une plus grande probabilité d'avoir une analyse erronée. Dans la traduction automatique, des phrases compliquées mènent à une ambiguïté accrue et des traductions potentiellement insatisfaisantes.

Des phrases compliquées peut aussi conduire à des confusions dans les livres d'assemblage, les manuels d'utilisation ou les livres de maintenance des équipements complexes.

Définition

Simplification de Texte : Des processus qui impliquent la simplification syntaxique ou lexicale d'un texte et un résultat sous forme d'un texte cohérent.

Les simplifications lexicale et syntaxique sont définies comme suit :

  • Simplification lexicale : Des processus qui réduisent la complexité lexicale d'un texte tout en conservant son sens et le contenu des informations.
  • Simplification syntaxique : Des processus qui réduisent la complexité syntaxique d'un texte tout en conservant son sens et le contenu des informations.

Exemple

La première phrase contient deux clauses relative et un syntagme verbal conjoint. Un TS système vise à simplifier la première phrase à la deuxième phrase.

  • Also contributing to the firmness in copper, the analyst noted, was a report by Chicago purchasing agents, which precedes the full purchasing agents report that is due out today and gives an indication of what the full report might hold.
  • Also contributing to the firmness in copper, the analyst noted, was a report by Chicago purchasing agents. The Chicago report precedes the full purchasing agents report. The Chicago report gives an indication of what the full report might hold. The full report is due out today.

Méthode de simplification lexicale

Méthode de projet PSET[1]

Cette méthode est utilisé pour traiter les textes anglais.

Elle parcourt les mots dans l'ordre décroissant de difficulté, l'exécution des opération suivants sur chaque mot :

  • Analyser la morphologie du mot. par exemple publicised = publicise + ed.
  • La nature grammaticle du mot sera connue et donc une requête peut être faite sur WordNet. Ici, le terme de requête est (publicise, verb).
  • La « difficulté » des synonymes retournés pour chaque mot est évaluée et le mot le plus simple est choisi. Dans notre exemple, "air " serait choisi.
  • Le mot choisi reçoit l'inflexion du mot qu'il va remplacer. Donc "air + ed" produit "aired".
  • Le cas échéant, le déterminant "a/an " est corrigé. Donc "a publicised event" devient "an aired event".

Cette méthode ne réalise pas la désambiguisation lexical (Word Sense Disambiguation, WSD ) et elle s'appuie aussi sur la disponibilité de WordNet et une base de données psycholinguistiques, ce signifie qu'elle n'est pas disponible pour tous les langues.

Méthodo de Belder & Deschacht[2]

Cette méthode est beaucoup plus évolutive en d'autres langues et réalise une forme de WSD.

Étant donné un mot, on d'abord génére deux ensembles de mots alternatives. Un ensemble est obtenue à partir d'un dictionnaire des synonymes (ou WordNet, si disponible), et l'autre est généré par le modèle Latent Words Language(LWLM). Pour chaque mot dans l'intersection de ces ensembles, on génére une probabilité qu'il est un bon remplacement, tel que défini par Psimplification.

Représentation schématique
  • Le modèle Latent Words Language :

LWLM modèle les langues en termes de mots consécutifs ainsi que la signification contextuelle des mots comme des variables latentes dans un réseau bayésien.

Dans une phases de l'apprentissage, le modèle apprend pour chaque mot un ensemble probabiliste de synonymes et mots relatifs à partir d'un large corpus d'apprentissage non étiqueté.

Pendant la phase de l'inférence, le modèle est appliqué à un texte inédit et estime pour chaque mot les synonymes de ce mot qui sont pertinents dans ce contexte particulier.

Les mots latents aider à résoudre le problème de parcimonie rencontré avec N-gramme traditionnel modèle, conduisant à un modèle de langue de qualité supérieure, en termes de réduction de la perplexité sur des textes inédits.

  • Modélisation de la facilité de mots:

La probabilité pour qu'un nouveau mot w est un bon remplacement pour le mot d'origine worig dans le texte est inspiré par la probabilité Psimplification, défini comme suit:

 P_{simplification}(w | w_{orig}) = P_{replace}(w | w_{orig} , context) \, P(easy | w)

La probabilité qu'un nouveau mot correspond toujours à le contexte est inspiré par LWLM, qui nous dit quels remplacements sont plus susceptibles que les autres. Le second facteur à estimer si un mot est facile ou non. Il peut être instancié dans plusieurs façons, selon la disponibilité des ressources.

Méthode de Simplification syntaxique

Méthode de Chandrasekar et al.

La motivation de ST de Chandrasekar et al est en grande partie à réduire la longueur des phrases comme une étape de prétraitement pour un analyseur. Ils ont traité ST en deux étapes processus : "analyse" suivie d'une "transformation".

  • La première approche (Chandrasekar et al., 1996) [3]:

Traiter mauel les règles de simplification. Par exemple:

V W:NP, X:REL_PRON Y, Z.  \to V W Z. W Y.

Qui peut se lire comme «si une phrase se compose d'un texte V suivi par un syntagme nominal W, un pronom relatif X et une séquence de mots Y enfermés dans des virgules et une séquence de mots Z, alors la clause intégrée peut être transformé en une nouvelle phrase avec W comme syntagme nominal objet". Cette règle peut, par exemple, être utilisé pour effectuer des simplifications suivantes:

John, who was the CEO of a company, played golf.

 \downarrow

John played golf. John was the CEO of a company.

Dans la pratique, règles linéaire de Filtrage par motif comme celui traité manuel ci-dessus ne fonctionne pas très bien. Par exemple, pour simplifier:

A friend from London, who was the CEO of a company, played golf, usually on Sundays.

Il est nécessaire de décider si la clause relative attache à un friend ou à London et si la clause se termine sur company ou golf. Et si un analyseur est utilisé pour résoudre ces ambiguïtés (comme dans leur deuxième approche résumée ci-dessous), l'utilisation prévue de ST comme un pré-processeur à un analyseur est plus difficile à justifier.

  • La deuxième approche (Chandrasekar et Srinivas, 1997) [4]:

Utiliser le programme pour apprendre les règles de simplification à partir d'un corpus aligné des phrases et leur formes simplifiées traitées manuelles.

Les phrases originales et simplifiées sont analysés à l'aide d'une Lightweight Dependency Analyser (LDA) (Srinivas, 1997) qui a agi sur la sortie d'un supertagger (Joshi et Srinivas, 1994). Ces analyseurs sont chunked à syntagmes.

les règles de simplification sont induites d'une comparaison entre les structures des analyseurs chunked de la texte original et simplifiée traitée manuelle.

L'algorithme d'apprentissage travaillé en sous-arbres aplatissants qui sont les mêmes sur les deux côtés de la règle, il remplace les chaînes de mots identiques avec des variables, et puis calcul les transformations arbre  \to arbres pour obtenir des règles en termes de ces variables.

Méthode de projet PSET [5]

Pour la Simplification syntaxique, le projet PSET à peu près suivi l'approche de Chandrasekar et al. PSET utilise un analyseur probabiliste LR (Briscoe et Carroll, 1995) pour la étape de l'analyse et le Filtrage par motif utilisant l'unification de règles traitée manuelle sur les arbres de syntagme-constructeur pour la étape de transformation.

Ici est un exemple :

(S (?a) (S (?b) (S (?c) ) ) )  \to (?a) (?c)

Le côté gauche de cette règle unifie les structures de la forme représentée à la figure ci-dessous :

La structure filtré par le motif (S (?a) (S (?b) (S (?c) ) ) )

La règle supprime simplement la conjonction (?b) et construit des nouvelles phrases de (?a) et (?c) . Cette règle peut être utilisée, par exemple, d'effectuer des simplifications suivantes :

The proceedings are unfair and any punishment from the guild would be unjustified.

 \downarrow

The proceedings are unfair. Any punishment from the guild would be unjustified.

Bibliographie

  1. Devlin. 1999. Simplifying natural language text for aphasic readers. Ph.D. Dissertation. University of Sunderland. UK.
  2. Lexical Simplification, Jan De Belder, Koen Deschacht et Marie-Francine Moens.
  3. Raman Chandrasekar, Christine Doran, et Bangalore Srinivas. 1996. Motivations and Methods for Text Simplification. In Proceedings of the 16th International Conference on Computational Linguistics (COLING ’96), Copenhagen, Denmark. pages 1041–1044.
  4. Bangalore Srinivas. 1997. Complexity of Lexical Descriptions and its Relevance to Partial Parsing. Ph.D. thesis, University of Pennsylyania, Philadelphia, PA.
  5. Devlin and J. Tait. 1998. The use of a psy cholinguistic database in the simplification of text for aphasic readers. In J. Nerbonne. Linguistic Databases. Lecture Notes. Stanford. USA. CSLI Publications.

En savoir plus

  • Readability Assessment for Text Simplification, Cassini Sandra Aluisio, Lucia Specia, Caroline Gasperin et Carolina Scarton.
  • Simplifying Text for Language-Impaired Readers, John Carroll, Yvonne Canning, Guido Minnen, Siobhan Devlin, Darren Pearce, et John Tait.
  • Extract-based summarization with simplification, Partha Lal et Stefan Ruger.
  • Text Simplification for Children, Jan De Belder et Marie-Francine Moens.
  • Syntactic simplification and text cohesion, Advaith Siddharthan.
  • Automatic Induction of Rules for Text Simplification, R. Chandrasekar et B. Srinivas
  • Text Simplification for Information-Seeking Applications, Beata Beigman Klebanov, Kevin Knight, et Daniel Marcu.

Voir aussi

Cet article est fondé sur une traduction de la Free On-line Dictionary of Computing et est utilisé avec permission selon la GFDL.


Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Simplification de textes de Wikipédia en français (auteurs)

Игры ⚽ Поможем написать курсовую

Regardez d'autres dictionnaires:

  • Commissariat à la simplification administrative — Wall-On-Line — Le Commissariat EASI WAL (EASI signifiant « E Administration, SImplification ») résulte de la fusion du Commissariat à la simplification administrative et de Wall On Line. Placé sous l autorité directe du Ministre Président de la Région …   Wikipédia en Français

  • Commissariat à la simplification administrative — Le Commissariat EASI WAL (EASI signifiant « E Administration, SImplification ») résulte de la fusion du Commissariat à la simplification administrative et de Wall On Line. Placé sous l autorité directe du Ministre Président de la Région …   Wikipédia en Français

  • CODIFICATION — Les termes «code», «codifier», «codification» sont des pavillons qui couvrent des marchandises diverses et parfois frelatées. La race des codes est considérée comme noble, plus que celle des lois ou des décrets, de sorte que l’on a vu publier en… …   Encyclopédie Universelle

  • Codification (Droit) — Pour les articles homonymes, voir Codification. Cet article contient des données générales sur la codification. Voir aussi Liste de codes juridiques. En droit la codification consiste à regrouper des textes normatifs de natures diverses dans des… …   Wikipédia en Français

  • Codification (droit) — Pour les articles homonymes, voir Codification. Cet article contient des données générales sur la codification. Voir aussi Liste de codes juridiques. En droit la codification consiste à regrouper des textes normatifs de natures diverses dans des… …   Wikipédia en Français

  • Codification juridique — Codification (droit) Pour les articles homonymes, voir Codification. Cet article contient des données générales sur la codification. Voir aussi Liste de codes juridiques. En droit la codification consiste à regrouper des textes normatifs de… …   Wikipédia en Français

  • Traitement automatique du langage naturel — Le Traitement automatique du langage naturel ou de la langue naturelle (abr. TALN) ou des langues (abr. TAL) est une discipline à la frontière de la linguistique, de l informatique et de l intelligence artificielle, qui concerne l application de… …   Wikipédia en Français

  • Livre des morts des Anciens Égyptiens —  D autres ouvrages sont qualifiés de Livre des morts Égypte antique Époque : du Nouvel Empire égyptien à la dynastie des Ptolémées …   Wikipédia en Français

  • Rationalisation de l'écriture chinoise — La rationalisation de l écriture chinoise a été une préoccupation des autorités chinoises tout au long de l histoire du pays, dans un double souci de standardisation, et de simplification. Des aspects politiques essentiels ont souvent été à… …   Wikipédia en Français

  • Frederic Nietzche — Friedrich Nietzsche Friedrich Nietzsche Philosophe Occidental Époque Contemporaine Friedrich Nietzsche, en 1882. Naissance : 15 octobre …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”