INDÚSTRIAS DA LÍNGUA

 

Desenvolvimento de um
Modelo computacional para o procesamento de corpus textuais
baseado na etiquetagem automática


Leonel Ruiz Miyares, do Centro de Lingüística Aplicada do Ministério da Ciência, Tecnologia e Meio Ambiente da Delegação Territorial de Santiago de Cuba, Cuba (ver também "Diretamente de Termilat", Terminometro nº 39), defendeu recentemente a tese de doutorado "Desarrollo de un modelo computacional para el procesamiento de corpus textuales basados en la etiquetación automática".

Nela, o autor faz uma análise detalhada da etiquetagem automática de corpus textuais, indicando os diferentes caminhos que devem ser seguidos para eliminar a ambigüidade das palavras que tenham mais de uma categoria gramatical, segundo o contexto em que se encontram, principalmente em base à teoria probabilista dos modelos ocultos de Markov.

A tese expõe a estrutura, o funcionamento, e a descrição do modelo computacional denominado Etiproct (Etiquetador y Procesador de Corpus Textuales) proposto na pesquisa, apresentando as duas partes: a de etiquetagem automática de textos e a do processamento da informação lingüística. A aplicação de Etiproct a dois corpus textuais completamente diferentes do ponto de vista léxico reflete a importância da eficacidade do sistema.

Foram processados 358 textos escritos por alunos de escolas secundárias básicas de oito províncias cubanas, obtendo-se o índice de eficiência de 98,15%. Por outro lado, a análise de 131 textos da imprensa escrita cubana atingiu o índice de eficiência de 97,16%. Outra novidade do sistema descrito nesta tese é a codificação automática dos lapsogramas cometidos pelos estudantes nas composições escritas.

O reconhecimento de palavras compostas, o enriquecimento constante do léxico, a criação do aspecto semântico em si, e a importante relação dos resultados língua-estatísticas, entre outros, são as contribuições mais significativas do primeiro etiquetador gramatical automático de corpus textuais criado em Cuba, o objetivo principal desta tese .
Leonel Ruiz Miyares, Centro de Lingüística Aplicada, Ministerio de Ciencia, Tecnología y Medio Ambiente, Santiago de Cuba, Cuba.