|
|
Desarrollo
de un
En la tesis se realiza un análisis detallado de la etiquetación automática de corpus textuales, las diferentes vías de desambiguar las palabras con posibilidad de tener más de una categoría gramatical, según el contexto donde se encuentre, principalmente sobre la base de la teoría probabilística de los modelos ocultos de Markov. La tesis describe la estructura, funcionamiento y descripción del modelo computacional que propone esta investigación, el cual se denomina Etiproct (Etiquetador y Procesador de Corpus Textuales) y describe sus dos secciones: la de la etiquetación automática de los textos y la del procesamiento de la información lingüística. La aplicación del Etiproct a dos corpus textuales completamente diferentes desde el punto de vista lexical refleja la alta efectividad del sistema. Se procesaron 358 textos escritos por alumnos de secundaria básica de ocho provincias cubanas, donde se obtuvo una efectividad de 98.15%. Por su parte, se analizaron 131 textos de la prensa escrita cubana y la efectividad fue de un 97.16%. Otra de las novedades del sistema que describe esta tesis es la codificación automática de los lapsogramas cometidos por los estudiantes en las composiciones escritas. El
reconocimiento de palabras compuestas, el enriquecimiento constante
del lexicón, la creación del aspecto semántico dentro del mismo y
la larga relación de resultados linguoestadísticos, entre otros, son
los aportes más significativos del primer etiquetador gramatical automático
de corpus textuales creado en Cuba, objetivo principal de esta tesis.
|
||||||||||||||||||||||||||||||