Architecture Générale Pour Le Traitement De Texte


Architecture Générale Pour Le Traitement De Texte

Architecture générale pour le traitement de texte

L’Architecture générale pour le traitement de texte ou GATE (pour General Architecture for Text Engineering) est une boîte à outils logicielle écrite en Java à l'université de Sheffield (GB) à partir de 1995 et utilisée très largement à travers le monde par de nombreuses communautés (scientifiques, entreprises, enseignants, étudiants) pour le traitement du langage naturel dans différentes langues. La communauté de développeurs et de chercheurs autour de GATE est impliquée dans plusieurs projets de recherche européens comme TAO (Transitioning Applications to Ontologies Transitioning Applications to Ontologies) et SEKT (Semantically Enabled Knowledge Technology SEKT).

GATE offre une architecture, une interface de programmation d'applications (API) et un environnement de programmation graphique.

GATE comporte un système d'extraction d'information, ANNIE (A Nearly-New Information Extraction System, pour système quasi nouveau pour l'extraction d'information), lui-même formé de modules parmi lesquels un analyseur lexical, un gazetteer (?), un segmenteur de phrases (avec désambiguisation), un étiqueteur, un module d'extraction d'entités nommées et un module de détection de coréférences. Les langues pour lesquelles GATE est déjà mis en oeuvre sont l'anglais, l'espagnol, le chinois, l'arabe, le français, l'allemand, l'hindi, le Cebuano (?), le roumain, le russe. Il existe de nombreux plugins d'apprentissage automatique (Weka, RASP, MAXENT, SVM light), d'autres pour la construction d'ontologies (WordNet), pour l'interrogation de moteurs de recherche comme Google et Yahoo, pour l'étiquetage (Brill, TreeTagger), etc.

GATE accepte en entrée divers formats de texte comme le texte brut, HTML, XML, Microsoft Word (Doc), PDF, ainsi que divers formats de bases de données comme Java Serial (?), PostgreSQL, Lucene, Oracle, grâce à RDBMS et JDBC (?).

GATE utilise également le langage JAPE (Java Annotation Patterns Engine) pour bâtir des règles d'annotation de documents. On trouve aussi un debugger et des outils de comparaison de corpus et d'annotations.

Notes et références

  • Site officiel : [1] du groupe Natural Language Processing [2] de l'université de Sheffield

Voir aussi

  • Portail de l’informatique Portail de l’informatique
Ce document provient de « Architecture g%C3%A9n%C3%A9rale pour le traitement de texte ».

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Architecture Générale Pour Le Traitement De Texte de Wikipédia en français (auteurs)

Regardez d'autres dictionnaires:

  • Architecture generale pour le traitement de texte — Architecture générale pour le traitement de texte L’Architecture générale pour le traitement de texte ou GATE (pour General Architecture for Text Engineering) est une boîte à outils logicielle écrite en Java à l université de Sheffield (GB) à… …   Wikipédia en Français

  • Architecture générale pour le traitement de texte — L’Architecture générale pour le traitement de texte ou GATE (pour General Architecture for Text Engineering) est une boîte à outils logicielle écrite en Java à l université de Sheffield (GB) à partir de 1995 et utilisée très largement à travers… …   Wikipédia en Français

  • ARCHITECTURE - Architecture, sciences et techniques — Comme production matérielle, mais aussi comme art investi d’une finalité expressive, l’architecture entretient de nombreux rapports avec les sciences et les techniques. De tels rapports peuvent être rangés sous deux rubriques. L’architecture fait …   Encyclopédie Universelle

  • Architecture palladienne — Palladianisme Une villa avec un portique superposé, venant de la quatrième section du livre Les Quatre Livres de l architecture par Andrea Palladio. Le palladianisme est le néologisme qui désigne un style architectural originaire de Vénétie lancé …   Wikipédia en Français

  • Fouille de texte — Fouille de textes La fouille de textes ou l extraction de connaissances dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l intelligence artificielle. Cette technique est souvent désignée sous l… …   Wikipédia en Français

  • Société civile pour la location du centre commercial régional de Créteil — Créteil Soleil 48°46′48″N 2°27′24″E / 48.78, 2.45667 …   Wikipédia en Français

  • Gate — Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom. Sur les autres projets Wikimedia : « Gate », sur le Wiktionnaire (dictionnaire universel) Gate est un mot anglais qui peut se traduire par… …   Wikipédia en Français

  • JAPON - Les arts — Issu, comme tous les arts de l’Extrême Orient, de la Chine qui lui a fourni techniques et modèles, l’art japonais se distingue, cependant, par l’originalité de ses créations. Son développement est scandé de périodes d’absorption, où se manifeste… …   Encyclopédie Universelle

  • Intelligence économique — Diagramme sur le Système d Intelligence Compétitive et Technologique. L’intelligence économique est l ensemble des activités coordonnées de collecte, de traitement (d analyse) et de diffusion de l information utile aux décideurs économiques, en… …   Wikipédia en Français

  • Nantes — Pour les articles homonymes, voir Nantes (homonymie). 47° 13′ 05″ N 1° 33′ 10″ W …   Wikipédia en Français