A ENGENHARIA LINGÜÍSTICA
EM EUROPA:
Avanços e perspectivas
dtil10_03_01_02_16_img_01.jpg (4539 octets)

Em julho de 1997, a DG-XIII da Comissão Européia publicou um relatório sobre o estado atual das atividades no setor de "Engenharia lingüística" durante os dois primeiros anos do quarto programa-quadro.

Este relatório apresenta as atividades do setor de "Engenharia lingüística" (LE), setor pertencente ao programa de aplicações telemáticas, sublinhando seus objetivos e realizações. Numa primeira parte, propõe um estudo aprofundado que reflete a importância e o potencial deste setor na entrada do novo milênio, lembrando seus recentes desenvolvimentos. Numa segunda parte, passa em revista o conjunto dos projetos em curso.

Objetivos

O quarto programa-quadro apoia as atividades de pesquisa e desenvolvimento tecnológico no mundo da engenharia lingüística. Nesta perspectiva, o programa de aplicações telemáticas fixou-se um certo número de critérios de seleção dos diversos projetos apresentados, dentre os quais encontramos: responder a uma necessidade real do mercado, implicar seus usuários, cooperar dentro de um mesmo setor e entre setores diversos, e explorar os resultados obtidos.

Dentro do programa de aplicações telemáticas, o setor LE foi definido como um setor autônomo e seu papel foi reconhecido como fundamental.

Efetivamente, a revolução tecnológica que vivemos atualmente, e que deu lugar à chamada sociedade da informação, traz consigo um grande número de perigos que devem ser antecipados, sendo que este setor pode contribuir para seu desaparecimento. Por um lado, o acesso à informação corre o risco de ser reservado unicamente às pessoas que sabem utilizar um computador ou àquelas que conhecem a língua inglesa e, por outro lado, a grande quantidade de informações poderia traduzir-se por uma impossibilidade em identificar a informação solicitada. Assim, a engenharia lingüística permitirá que obtenhamos informações sob forma compreensível e em quantidades manipuláveis.

Além de um acesso fácil e adaptado à informação, a engenharia lingüística facilitaria a informação a qualquer pessoa, dando a todos os cidadãos o poder de intervirem na sociedade e em certos aspectos de sua vida.

Enfim, graças à engenharia lingüística, as empresas também deverão poder obter a informação certa no momento exato através dos serviços lingüísticos que possam atender as solicitações do usuário. E, quando se fala permanentemente de mundialização, deverá melhor as relações comerciais e a qualidade do serviço entre empresas de países diferentes.

Pequeno histórico do setor da "engenharia lingüística"

Os primeiros trabalhos sobre lingüística financiados pela União Européia foram realizados com o apoio dos programas Esprit e Eurotra, que focalizaram suas pesquisas sobre o reconhecimento vocal e a tradução automática.

O terceiro programa-quadro foi criado no início dos anos 90, para encorajar o progresso tecnológico na área de gerenciamento e transmissão da informação eletrônica. Em 1991, o programa de aplicações telemáticas lança uma nova iniciativa que prolonga os programas Esprit e Eurotra, chamada "Engenharia e pesquisa lingüística" (LRE), que concerne as tecnologias da linguagem natural e da voz. Esta iniciativa tem por objetivo estruturar a área das tecnologias lingüísticas e preparar o terreno para futuros projetos. O programa LRE possibilitou o financiamento de oitenta projetos, ligados a três áreas-chaves, a saber: pesquisa geral, recursos comuns e aplicações-piloto.

Um pouco antes do final do terceiro programa-quadro, uma nova ação foi introduzida: o "Plano de ação multilíngüe" (MLPA), que visa assegurar a continuidade do trabalho empreendido, bem como a boa transição entre o programa LRE e o atual setor LE do quarto programa-quadro.

Após um importante aumento de seu orçamento, o setor LE articulou-se em quatro grandes linhas de ação: projetos de aplicações-piloto, desenvolvimento de recursos lingüísticos, pesquisa em engenharia lingüística e ações de apoio como a normalização e avaliação. Os projeto-piloto constituem a espinha dorsal do programa já que permitem a integração das tecnologias de aplicações que podem ser demonstradas e que fazem participar ativamente os usuários. As atividades de pesquisa fazem parte dos projetos-piloto, mesmo se seu campo de aplicação vai muito além do simples projeto. Enfim, os projetos criam numerosos recursos lingüísticos com o auxílio de parceiros originários de diferentes países.

Com o objetivo de reforçar a infra-estrutura européia em engenharia lingüística, a Comissão apoiou também a criação de um certo número de organizações européias: uma rede de perícia (Elsnet), a Associação européia de recursos lingüísticos (Elra) e um grupo de especialistas encarregado da normalização (Eagles).

Recentemente, foi criado um novo programa, chamado MLIS, para responder às necessidades específicas da sociedade de informação multilíngüe. Através do apoio ao multilingüismo e da exploração das experiências e conhecimentos existentes, o programa MLIS fixou-se como objetivos próprios promover os serviços multilíngües na Europa, criar condições favoráveis para o desenvolvimento da atividade comercial ligada às tecnologias lingüísticas, reduzir os custos da transferência da informação entre diferentes línguas e contribuir para a promoção da diversidade lingüística na Europa.

Plano de trabalho para 1995-1998

O quarto programa-quadro outorga um lugar de importância aos usuários em seus diversos projetos. Todos os projetos são desenvolvidos em função das necessidades do mercado, visando uma aplicação específica ou destinado a usuários bem definidos. Além dos projetos que constituem a infra-estrutura do programa, eles se dividem em três grupos diferentes:

• as aplicações-piloto, que dizem respeito à criação e à administração da documentação, dos serviços de informação e de comunicação, bem como a tradução e aquisição de uma língua estrangeira;
• os projetos que concernem os recursos lingüísticos e que visam assegurar um desenvolvimento harmonioso e uma grande disponibilidade das ferramentas e recursos lingüísticos para todas as línguas oficiais da União;
• as atividades de pesquisa que ambicionam constituir uma base sólida para a criação de tecnologias lingüísticas em aplicações futuras.

Alguns projetos

Mais de trezentas organizações participaram dos trinta e oito projetos lançados desde 1995. Estes projetos encontram-se atualmente em diferentes fases de desenvolvimento e as informações do relatório datam do final do ano de 1996. Apresentamos, a seguir, uma breve amostragem dos projetos ligados a nossos centros de interesse:

    EuroWordNet         dtil10_03_01_02_16_img_02.gif (6629 octets)

Coordenado pela Universidade de Amsterdã, em parceria com o Istituto di Linguistica Computazionale, a Fundación Universidad Empresa e a Universidade de Sheffield, o projeto EuroWordNet diz respeito à construção de uma base de dados multilíngüe que registra as relações semânticas entre as palavras. Uma base comum de conceitos foi definida nas quatro línguas escolhidas: inglês, espanhol, italiano e neerlandês. Este tipo de base de dados pode interessar os editores, institutos de pesquisa, instituições que utilizam recursos similares para produtos ou serviços que necessitam de recursos semânticos multilíngües ou, ainda, usuários finais em busca de produtos que lhes permitam administrar suas fontes de informação.
Http://www.let.uva.nl/~ewn/

    Interval         dtil10_03_01_02_06_img_01.gif (2814 octets)

Este projeto, coordenado por CL Servicios Lingüísticos SA, em parceria com LCI, La Maison du Dictionnaire, Western Systems, Trados, Termcat, União Latina, Inke e a Universidade de Surrey, tem por objetivo desenvolver métodos e ferramentas para a validação e a normalização de recursos terminológicos. Assim, Interval validará 20.000 conceitos em várias línguas, desenvolverá ferramentas de gerenciamento, consolidação e validação, e elaborará guias que identificarão os recursos existentes e descreverão sua qualidade, aquisição, consolidação e validação. Interval permitirá reduzir os custos de criação e atualização de terminologias, facilitará a reutilização, assegurará a compatibilidade entre as diversas fontes e melhorará a qualidade dos recursos.
Http://www.mcs.surrey.ac.uk/interval/

    LE-Parole         paroleco.gif (62543 octets)

Sob a coordenação do Consorzio Pisa Ricerche, nada menos de dezessete parceiros trabalham na criação de uma base importante de corpus e léxicos harmonizados, abordando todas as línguas da União Européia. Estes recursos terão diversas aplicações no desenvolvimento e teste de aplicativos, nas criações, na criação de ferramentas de aprendizagem das línguas ou, ainda, na análise comparativa.
http://www.ilc.pi.cnr.it/parole/parole.html

    Otelo         dtil10_03_01_02_16_img_09.gif (31797 octets)

Uma dezena de parceiros faz parte do consórcio coordenado pela empresa irlandesa Lotus Development. Este projeto visa melhorar a disponibilidade e produtividade dos serviços de tradução graças ao desenvolvimento de um ambiente para o tradutor que oferece acesso a várias ferramentas tais como os sistemas de tradução automática, sistemas de gerenciamento de recursos léxicos, bases de dados centrais, sistemas de processamento de texto, etc.
Http://www.otelo.de/

    Mulinex         mulinex.gif (7668 octets)

Trados, Bertelsmann Telemedia, Grolier Interactive Europe e Datamat-Ingenieria dei Sistemi são os parceiros deste projeto coordenado pela Deutsches Forschungszentrum für Künstliche Intelligenz. Em resposta a uma demanda crescente de multingüismo no Web, Mulinex desenvolve um aplicativo no Web que permite o acesso, a navegação e a apresentação seletiva da informação em ambiente multilíngüe. Este sistema poderá ser interessante para os editores, criadores de sites Web, fornecedores de informação e de acesso ou, ainda, para as instituições em busca de ferramentas de pesquisa nos meios que apresentam grande quantidade de textos multilíngües.
http://cl-www.dfki.uni-sb.de/cl/projects/mulinex-e.html

    Sparkle        

O Computer Laboratory da Universidade de Cambridge, Daimler-Benz, Sharp Laboratories of Europe e Rank Xerox Research Centre são os membros do consórcio que desenvolve este projeto, coordenado pelo Consorzio Pisa Ricerche. O objetivo é desenvolver ferramentas robustas e flexíveis de análise sintática de textos, bem como um sistema de aquisição léxica semi-automático; os primeiros podem ser integrados em aplicativos de extração e de indexação, enquanto que o segundo possibilitará a criação de léxicos utilizáveis em aplicativos de engenharia lingüística.
http://www.ilc.pi.cnr.it/sparkle.html

    Ecran         dtil10_03_01_02_16_img_08.gif (12140 octets)

Este projeto é coordenado pelo Laboratório Central de Pesquisas da Thomson-CSF, tendo como parceiros a Università delli Studi di Ancona, a Univesità di Roma Tor Vergata, o National Centre for Scientific Research "Demokritos", Smart Information Services, as Universidades de Friburgo e Sheffield. O objetivo é desenvolver uma nova geração de aplicações de extração da informação integradas aos serviços telemáticos que possuam um conteúdo textual considerável. A informação identificada pelo sistema atenderá a critérios de seleção definidos pelo usuário. O Ecran está desenvolvendo uma ferramenta que permitirá que um sistema adapte e estenda seus conhecimentos lingüísticos a novas áreas de forma automática.
http://www2.echo.lu/langeng/en/le1/ecran/ecran.html

Enfim, para garantir o apoio do setor LE, o quarto programa-quadro deve continuar a consolidar e a melhorar a infra-estrutura já instalada através dos projetos Eagles, Elra, Linglink e Euromap, descritos a seguir:

    Eagles         seagles.gif (18736 octets)

Uma dezena de instituições trabalha sob a coordenação do Consorzio Pisa Ricerche para desenvolver uma série de diretivas e normas na área da engenharia lingüística. O projeto objetiva criar normas que permitam a reutilização dos produtos de engenharia lingüística, reduzindo, assim, os custos e acelerando sua entrada no mercado.
http://www.ilc.pi.cnr.it/eagles/home.html

    Elra         elrav.gif (3310 octets)

Com sua sede em Paris, a Associação Européia de Recursos Lingüísticos serve de infra-estrutura para a identificação, coleta, classificação, validação, distribuição e exploração dos recursos lingüísticos (voz, texto, ferramentas gramaticais e informáticas).
http://www.icp.grenet.fr/elra/fr/home.html

    Linglink         linglink.gif (1170 octets)

Sob a direção da Anite Systems, a missão de Linglink consiste em apoiar e promover o setor LE na Europa. Este projeto age ao mesmo tempo a nível interno, incitando os diferentes projetos a comunicarem entre si e convidando-os a uma utilização mútua dos recursos e à difusão dos resultados, e, de forma externa, através da promoção da engenharia lingüística e dos resultados dos projetos.
Http://www.anite-systems.lu/

    Euromap         emlogo.gif (2814 octets)

Dezessete instituições formam o consórcio da Euromap, sob a coordenação do Department of Trade and Industry inglês. Este projeto objetiva tornar eficaz a exploração dos trabalhos de engenharia lingüística, promover a comunicação entre pesquisadores e o mundo comercial, melhorar a coordenação entre o mundo da pesquisa e as políticas de desenvolvimento nacionais e européias, desenvolver a conscientização e, enfim, assegurar que a Europa ocupe um lugar importante no mercado mundial.
http://www.anite-systems.lu/euromap/index.html

As tecnologias da linguagem humana

A Comissão Européia também elaborou um documento de trabalho relativo às tecnologias da linguagem humana. Servindo de base a futuras discussões sobre o tema, o documento é fruto dos esforços entre numerosos atores do mundo da indústria, pesquisa e ensino superior, visando definir as futuras atividades européias de pesquisa e de desenvolvimento no âmbito das tecnologias da linguagem humana.

Os parceiros deste projeto partiram da idéia de que o mundo da pesquisa e do desenvolvimento tecnológicos deveria determinar um número limitado de objetivos principais a serem atingidos, a fim de contribuir para as atividades dos setores-chaves da sociedade da informação, levando em conta, ao mesmo tempo, as aspirações do público europeu. Assim, os três setores de atividades visados - mundialização da economia e da sociedade, telecomunicações numéricas de alta fidelidade e o Web - deverão rebater o desafio do multilingüismo, da interação natural e do dinamismo da informação, respectivamente. Estes objetivos deverão ser atingidos:

- apoiando-se nos pontos fortes e no potencial da Europa, em particular na superioridade em matéria de tecnologias da linguagem humana, nas competências multilíngües, nas telecomunicações, no setor da informação, etc.;
- seguindo as grandes linhas da política européia em matéria de pesquisa e desenvolvimento tecnológicos, ou seja, os critérios fixados pelo quinto programa-quadro: favorecer o crescimento e a criação de empregos, encorajar a diversidade cultural e lingüística, promover a qualidade de vida e manter um bom nível de desenvolvimento.

O esquema descrito acima é explicado e resumido numa primeira parte e serve de ponto de partida para a análise da situação em matéria de tecnologias da linguagem humana, objeto de uma segunda parte. Numa terceira parte, o documento propõe uma infra-estrutura e uma série de medidas específicas a serem tomadas.

 Luxemburgo, julho de 1997.