|
Direction : Benoit Sagot et Núria Bel.
Ces dernières années, les évolutions du domaine du TAL, tant
dans ses approches que dans ses ambitions, ont changé de façon importante
les paradigmes de conception, de construction, d’exploitation et
d’évaluation des ressources linguistiques. En particulier, l’importance
prise par les approches empiriques ont fait croître les besoins en corpus
annotés et en ressources lexicales. Un nombre de plus en plus important de
langues, parmi lesquelles le français et les autres langues romanes, se
sont équipées de ressources de plus en plus sophistiquées.
Les ressources linguistiques sont textuelles, orales, voire
multimodales. Elles regroupent :
◊ des corpus écrits ou oraux, bruts ou, plus naturellement,
enrichis d’annotations de toute nature, de la simple étiquette
morphosyntaxique à une information prosodique, et d’un graphe de
dépendance à des structures de discours. ◊ des ressources lexicales
relevant de l’un ou l’autre des niveaux d’analyse linguistique, mais
également de grammaires ou d’autres formes de modélisation de tous types
de structures linguistiques - la frontière entre lexique et grammaire
dépend d’ailleurs souvent de l’approche (cf. TAG, lexique-grammaire, etc). ◊
des ressources complexes, combinant corpus annoté et base de donnée
lexicale associée et/ou combinant des informations issues de différents
niveaux d’analyse linguistique.
Elles rassemblent une ou plusieurs variantes de la langue ou
des langues traitées : langue standard, langue journalistique, langue de
spécialité (avec souvent une grande importance donnée aux aspects
terminologiques), langue orale (éventuellement transcrite), blogs et
forums, SMS, etc.
Toutefois, le développement de ressources linguistiques est
une tâche longue, coûteuse et fortement sujette aux erreurs, quelles que
soient les approches utilisées. C’est une des raisons de l’importance
croissante prise par les ressources libres dont l’exploitation et la
redistribution sont possibles tout en garantissant le maintien du droit
d’auteur lors de toute modification.
L’objectif de ce numéro spécial porte sur toutes les
problématiques scientifiques liées aux ressources linguistiques de toutes
natures. Au-delà de la simple description de ressources qui reste souvent
d’un intérêt limité, les soumissions attendues porteront sur l’ensemble
des thématiques liées aux ressources linguistiques, et notamment :
◊ la modélisation des données linguistiques constituant les
ressources : (cadres formels linguistiquement motivés, représentations
d’informations linguistiques sous forme de données structurées et/ou
quantitatives, normes pour les ressources linguistiques...). ◊ les
méthodologies de développement de ressources linguistiques, qu’elles
soient purement manuelles, purement automatiques ou hybrides (techniques
semi-supervisées, méthodes par transfert interlingue, utilisation d’outils
de pré-annotation, interfaces de validation/correction, etc.) ; les
approches favorisant à la fois la pertinence linguistique et la
minimisation du "coût humain" seront particulièrement appréciées. ◊
la validation et l’évaluation des ressources linguistiques, y compris au
sein de systèmes de TAL mais également de linguistique expérimentale ; les
contributions devront montrer en quoi l’utilisation de ressources
linguistiques a permis d’améliorer les performances d’un système ou la
compréhension d’un phénomène et/ou constituer un moyen pertinent d’évaluer
voire d’améliorer ces ressources linguistiques.
Dates importantes :
◊ Date limite de
soumission : 30 Septembre 2011 ◊ Notification aux auteurs : 15
Janvier 2012 ◊ Date limite pour la version finale : 3 Mars 2012 ◊
Publication en ligne : mi 2012
INFORMATIONS
|
 |
|