|
El Corpus del Español Actual (CEA)
tiene 540 millones de palabras y está lematizado y etiquetado con
información morfológica y/o categorial. El CEA está integrado por los
siguientes textos:
- la parte española del corpus paralelo español-inglés
Europarl: European Parliament Proceedings Parallel Corpus v. 6
(1996-2010), - el módulo en lengua española del Wikicorpus v. 1.0,
que contiene una parte importante de la Wikipedia (2006), y - la
sección en español del MultiUN: Multilingual UN Parallel Text 2000-2009,
un corpus integrado por resoluciones de la Organización de las Naciones
Unidas (ONU).
La etiquetación del CEA se ha realizado con una aplicación que
utiliza un diccionario electrónico del español de 635.000 formas (http://sfn.uab.es:9080/SFN/tools/dictionary),
generadas automáticamente a partir de un diccionario de 86.000 lemas
simples, como p. ej., unir, inmoralidad, allí, etc., y 26.000 lemas
locutivos, como p. ej., muerte cerebral, carga de profundidad, de armas
tomar, etc. (Subirats 1989, 1992, 1994a, 1994b, Mogorrón 1994, Garrido
1999, Ríos 1999, Bobes 2000). La desambiguación de la etiquetación se ha
llevado a cabo mediante un proceso de intersección de autómatas, que
utiliza información léxica y sintáctica (Subirats 1998, Subirats y Ortega
2000, 2001, Ortega en preparación).
Las búsquedas en el corpus se realizan con la interfaz gráfica
CQPweb (http://cwb.sourceforge.net/cqpweb.php).
Si se desea realizar búsquedas que incluyan información morfológica y/o
categorial, es necesario consultar el etiquetario del CEA (http://sfn.uab.es:9080/SFN/tools/cea/corpus-tags),
el cual incluye las etiquetas categoriales y morfológicas que se han
utilizado en su etiquetación.
El CEA se ha realizado en el marco del proyecto de
investigación FrameNet Español (FNE http://sfn.uab.es:9080/SFN/), el cual no sólo ha
puesto en la red los resultados del proyecto, concretamente, un corpus de
oraciones con anotación semántica y sintáctica (http://sfn.uab.es:9080/SFN/data),
sino además los recursos lingüísticos utilizados para el desarrollo de
dicho proyecto:
>>>>>>>>>>>>>
|
 |
|