Architecture Générale Pour Le Traitement De Texte

Architecture générale pour le traitement de texte

L’Architecture générale pour le traitement de texte ou GATE (pour General Architecture for Text Engineering) est une boîte à outils logicielle écrite en Java à l'université de Sheffield (GB) à partir de 1995 et utilisée très largement à travers le monde par de nombreuses communautés (scientifiques, entreprises, enseignants, étudiants) pour le traitement du langage naturel dans différentes langues. La communauté de développeurs et de chercheurs autour de GATE est impliquée dans plusieurs projets de recherche européens comme TAO (Transitioning Applications to Ontologies Transitioning Applications to Ontologies) et SEKT (Semantically Enabled Knowledge Technology SEKT).

GATE offre une architecture, une interface de programmation d'applications (API) et un environnement de programmation graphique.

GATE comporte un système d'extraction d'information, ANNIE (A Nearly-New Information Extraction System, pour système quasi nouveau pour l'extraction d'information), lui-même formé de modules parmi lesquels un analyseur lexical, un gazetteer (?), un segmenteur de phrases (avec désambiguisation), un étiqueteur, un module d'extraction d'entités nommées et un module de détection de coréférences. Les langues pour lesquelles GATE est déjà mis en oeuvre sont l'anglais, l'espagnol, le chinois, l'arabe, le français, l'allemand, l'hindi, le Cebuano (?), le roumain, le russe. Il existe de nombreux plugins d'apprentissage automatique (Weka, RASP, MAXENT, SVM light), d'autres pour la construction d'ontologies (WordNet), pour l'interrogation de moteurs de recherche comme Google et Yahoo, pour l'étiquetage (Brill, TreeTagger), etc.

GATE accepte en entrée divers formats de texte comme le texte brut, HTML, XML, Microsoft Word (Doc), PDF, ainsi que divers formats de bases de données comme Java Serial (?), PostgreSQL, Lucene, Oracle, grâce à RDBMS et JDBC (?).

GATE utilise également le langage JAPE (Java Annotation Patterns Engine) pour bâtir des règles d'annotation de documents. On trouve aussi un debugger et des outils de comparaison de corpus et d'annotations.

Notes et références

  • Site officiel : [1] du groupe Natural Language Processing [2] de l'université de Sheffield

Voir aussi

  • Portail de l’informatique Portail de l’informatique
Ce document provient de « Architecture g%C3%A9n%C3%A9rale pour le traitement de texte ».

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Architecture Générale Pour Le Traitement De Texte de Wikipédia en français (auteurs)

Regardez d'autres dictionnaires:

  • Architecture generale pour le traitement de texte — Architecture générale pour le traitement de texte L’Architecture générale pour le traitement de texte ou GATE (pour General Architecture for Text Engineering) est une boîte à outils logicielle écrite en Java à l université de Sheffield (GB) à… …   Wikipédia en Français

  • Architecture générale pour le traitement de texte — L’Architecture générale pour le traitement de texte ou GATE (pour General Architecture for Text Engineering) est une boîte à outils logicielle écrite en Java à l université de Sheffield (GB) à partir de 1995 et utilisée très largement à travers… …   Wikipédia en Français

  • Fouille de texte — Fouille de textes La fouille de textes ou l extraction de connaissances dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l intelligence artificielle. Cette technique est souvent désignée sous l… …   Wikipédia en Français

  • Le Blanc Mesnil — Pour les articles homonymes, voir Blancmesnil. Le Blanc Mesnil La Place de l eau et la flè …   Wikipédia en Français

  • Le blanc-mesnil — Pour les articles homonymes, voir Blancmesnil. Le Blanc Mesnil La Place de l eau et la flè …   Wikipédia en Français

  • ARCHITECTURE - Architecture, sciences et techniques — Comme production matérielle, mais aussi comme art investi d’une finalité expressive, l’architecture entretient de nombreux rapports avec les sciences et les techniques. De tels rapports peuvent être rangés sous deux rubriques. L’architecture fait …   Encyclopédie Universelle

  • Le Point-du-Jour (Boulogne-Billancourt) — Boulogne Billancourt Pour les articles homonymes, voir Boulogne. 48°50′07″N 2°14′27″E / …   Wikipédia en Français

  • Architecture palladienne — Palladianisme Une villa avec un portique superposé, venant de la quatrième section du livre Les Quatre Livres de l architecture par Andrea Palladio. Le palladianisme est le néologisme qui désigne un style architectural originaire de Vénétie lancé …   Wikipédia en Français

  • Le Blanc-Mesnil — Pour les articles homonymes, voir Blancmesnil et Le Blanc. 48° 56′ 00″ N 2° 27′ 00″ E …   Wikipédia en Français

  • Le Volcan (salle) — Pour les articles homonymes, voir Le Volcan. Le Volcan Type …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”