SOMMAIRE

ÉDITORIAL
TERMINOLOGIE
RÉSEAUX
DE TERMINOLOGIE
EN DIRECT
DE TERMILAT
INDUSTRIES
DE LA LANGUE
· Registro de Lexicografía Argentina
· Dictionnaire des synonymes en ligne
· MultiTrans
· Modèle informatisé pour l'automatisation de corpus textuels
· Nouveau Dictionnaire des difficultés du français moderne
DICTIONNAIRES
ET ASSIMILÉS
LINGUISTIQUE
ET LANGUES
TRADUCTION ET IST
ÉCHOS DE LA LISTE SIIT
REVUE
DES PUBLICATIONS
LIAISON
ÉCHOS
CARNET
D'ADRESSES

Ce numéro a été réalisé
avec le soutien
de la Délégation générale
à la langue française (DGLF)

 


INDUSTRIES DE LA LANGUE

 

Développement d'un
Modèle informatisé pour l'automatisation de corpus textuels
basé sur l'étiquetage automatique


"Desarrollo de un modelo computacional para el procesamiento de corpus textuales basado en la etiquetación automática" est le titre d'une thèse de doctorat soutenue récemment par Leonel Ruiz Miyares, du Centro de Lingüística Aplicada du ministère cubain des Sciences, de la technologie et de l'environnement de la Delegación Territorial de Santiago de Cuba. (voir aussi la rubrique "En direct de Termilat" dans Terminometro n° 39).

Dans cette thèse, l'auteur se livre à une analyse détaillée de l'étiquetage automatique de corpus textuels, en étudiant les différentes voies permettant de lever toute ambigüité sur des mots susceptibles de participer à plus d'une catégorie grammaticale, selon le contexte dans lequel ils se trouvent, principalement sur la base de la théorie des probabilités, présente dans les modèles occultes de Markov.

La thèse décrit la structure, le fonctionnement et la description du modèle informatisé proposé, dénommé Etiproct (Etiquetador y Procesador de Corpus Textuales) et décrit ses deux sections : celle de l'étiquetage automatique des textes et celle du traitement automatique de l'information linguistique. L'application d'Etiproct sur deux corpus textuels complètement différents du point de vue lexical reflète la haute efficacité du système.

358 textes, écrits par des élèves du niveau secondaire de huit provinces cubaines, ont été informatisés, avec une effectivité de 98.15%. Ont été également analysés 131 textes de la presse écrite cubaine, avec une effectivité de 97.16%. Autre nouveauté du système : la codification automatique des lapsogrammes, commis par les étudiants dans les compositions écrites.

La reconnaissance des mots composés, l'enrichissement constant du lexique, la création d'un aspect sémantique à l'intérieur de celui-ci et la longue liste de résultats linguo-statistiques sont, entre autres, les apports les plus significatifs du premier étiqueteur grammatical automatique de corpus textuels créé à Cuba, dont parle cette thèse.
Leonel Ruiz Miyares, Centro de Lingüística Aplicada, Ministerio de Ciencia, Tecnología y Medio Ambiente, Santiago de Cuba, Cuba