|
|
Desenvolvimento
de um
Nela, o autor faz uma análise detalhada da etiquetagem automática de corpus textuais, indicando os diferentes caminhos que devem ser seguidos para eliminar a ambigüidade das palavras que tenham mais de uma categoria gramatical, segundo o contexto em que se encontram, principalmente em base à teoria probabilista dos modelos ocultos de Markov. A tese expõe a estrutura, o funcionamento, e a descrição do modelo computacional denominado Etiproct (Etiquetador y Procesador de Corpus Textuales) proposto na pesquisa, apresentando as duas partes: a de etiquetagem automática de textos e a do processamento da informação lingüística. A aplicação de Etiproct a dois corpus textuais completamente diferentes do ponto de vista léxico reflete a importância da eficacidade do sistema. Foram processados 358 textos escritos por alunos de escolas secundárias básicas de oito províncias cubanas, obtendo-se o índice de eficiência de 98,15%. Por outro lado, a análise de 131 textos da imprensa escrita cubana atingiu o índice de eficiência de 97,16%. Outra novidade do sistema descrito nesta tese é a codificação automática dos lapsogramas cometidos pelos estudantes nas composições escritas. O
reconhecimento de palavras compostas, o enriquecimento constante do
léxico, a criação do aspecto semântico em si, e a importante relação
dos resultados língua-estatísticas, entre outros, são as contribuições
mais significativas do primeiro etiquetador gramatical automático
de corpus textuais criado em Cuba, o objetivo principal desta tese
.
|
||||||||||||||||||||||||||||||