|
|
Développement
d'un
Dans cette thèse, l'auteur se livre à une analyse détaillée de l'étiquetage automatique de corpus textuels, en étudiant les différentes voies permettant de lever toute ambigüité sur des mots susceptibles de participer à plus d'une catégorie grammaticale, selon le contexte dans lequel ils se trouvent, principalement sur la base de la théorie des probabilités, présente dans les modèles occultes de Markov. La thèse décrit la structure, le fonctionnement et la description du modèle informatisé proposé, dénommé Etiproct (Etiquetador y Procesador de Corpus Textuales) et décrit ses deux sections : celle de l'étiquetage automatique des textes et celle du traitement automatique de l'information linguistique. L'application d'Etiproct sur deux corpus textuels complètement différents du point de vue lexical reflète la haute efficacité du système. 358 textes, écrits par des élèves du niveau secondaire de huit provinces cubaines, ont été informatisés, avec une effectivité de 98.15%. Ont été également analysés 131 textes de la presse écrite cubaine, avec une effectivité de 97.16%. Autre nouveauté du système : la codification automatique des lapsogrammes, commis par les étudiants dans les compositions écrites. La reconnaissance
des mots composés, l'enrichissement constant du lexique, la création
d'un aspect sémantique à l'intérieur de celui-ci
et la longue liste de résultats linguo-statistiques sont, entre
autres, les apports les plus significatifs du premier étiqueteur
grammatical automatique de corpus textuels créé à
Cuba, dont parle cette thèse. | |||||||||||||||||||||||||||||||