INDUSTRIAS DE LA LENGUA

 

Desarrollo de un
Modelo computacional para el procesamiento de corpus textuales
basado en la etiquetación automática


Recientemente se realizó la defensa del doctorado titulado "Desarrollo de un modelo computacional para el procesamiento de corpus textuales basado en la etiquetación automática", del autor Leonel Ruiz Miyares, del Centro de Lingüística Aplicada del Ministerio de Ciencia, Tecnología y Medio Ambiente de la Delegación Territorial de Santiago de Cuba, Cuba (ver también "En directo de Termilat", Terminometro n° 39).

En la tesis se realiza un análisis detallado de la etiquetación automática de corpus textuales, las diferentes vías de desambiguar las palabras con posibilidad de tener más de una categoría gramatical, según el contexto donde se encuentre, principalmente sobre la base de la teoría probabilística de los modelos ocultos de Markov.

La tesis describe la estructura, funcionamiento y descripción del modelo computacional que propone esta investigación, el cual se denomina Etiproct (Etiquetador y Procesador de Corpus Textuales) y describe sus dos secciones: la de la etiquetación automática de los textos y la del procesamiento de la información lingüística. La aplicación del Etiproct a dos corpus textuales completamente diferentes desde el punto de vista lexical refleja la alta efectividad del sistema.

Se procesaron 358 textos escritos por alumnos de secundaria básica de ocho provincias cubanas, donde se obtuvo una efectividad de 98.15%. Por su parte, se analizaron 131 textos de la prensa escrita cubana y la efectividad fue de un 97.16%. Otra de las novedades del sistema que describe esta tesis es la codificación automática de los lapsogramas cometidos por los estudiantes en las composiciones escritas.

El reconocimiento de palabras compuestas, el enriquecimiento constante del lexicón, la creación del aspecto semántico dentro del mismo y la larga relación de resultados linguoestadísticos, entre otros, son los aportes más significativos del primer etiquetador gramatical automático de corpus textuales creado en Cuba, objetivo principal de esta tesis.
Leonel Ruiz Miyares, Centro de Lingüística Aplicada, Ministerio de Ciencia, Tecnología y Medio Ambiente, Santiago de Cuba, Cuba