LRE MapLa LRE Map (Language Resources and Evaluation) est une base de données librement accessible qui est dédiée aux ressources pour le traitement automatique des langues (TAL). La caractéristique originale de la LRE Map est que les enregistrements sont collectés lors des soumissions à des conférences scientifiques. Les enregistrements sont ensuite nettoyés et rassemblés dans une base de données nommées LRE Map[1]. La LRE Map est destinée à être un instrument de collecte d'informations sur les ressources linguistiques et devient, en même temps, une communauté pour les utilisateurs, un site pour partager et découvrir des ressources, discuter, fournir des retours d'utilisation, découvrir de nouvelles tendances etc. C'est un instrument pour découvrir, rechercher et documenter les ressources linguistiques, au sens large en incluant à la fois les données et les outils. La grande masse d'informations peut être analysée de différentes manières. Quelques analyses sont disponibles sur internet[2]. Par exemple, il est possible de connaître les ressources les plus fréquemment utilisées, les langues les plus représentées, les applications qui sont utilisées ou en cours de développement, la proportion des nouvelles ressources comparativement aux anciennes ou la façon dont les ressources sont distribuées dans la communauté. ContexteUn certain nombre d'institutions gèrent des catalogues de ressources linguistiques: ELRA, Linguistic Data Consortium, NICT Universal Catalogue, Association for Computational Linguistics (ACL) Data and Code Repository, OLAC, LT World, etc)[3]. Mais il a été estimé que seulement 10 % des ressources sont connues, soit via des catalogues de distribution ou via la publicité directe du fournisseur. Le reste est relativement caché, la seule occasion où la ressource émerge est quand elle est présentée dans le contexte d'une communication scientifique. Même dans ce cas, il se peut que la ressource reste dans l'ombre quand le thème de la recherche n'est pas la ressource en elle-même. HistoriqueLa LRE Map se nommait auparavant « LREC Map » durant la préparation de la conférence LREC 2010[4]. Plus précisément, l'idée fut discutée au sein du projet FlaReNet et en collaboration avec ELRA, la 'carte' a été mis en place pour LREC-2010. Les organisateurs de LREC ont demandé aux auteurs de fournir des informations simples sur toutes les ressources (au sens large, c'est-à-dire en incluant les outils de TAL, standards et kits d'évaluation) qui ont été créées ou utilisées telles que décrites dans les communications scientifiques. Toutes ces descriptions furent ensuite rassemblées dans une matrice globale appelée LREC Map. Après cette généralisation à d'autres conférences, la LREC Map a été renommée LRE Map. Taille et contenuLa taille de la base de données augmente avec le temps. Les données collectées lors de LREC-2010 comportaient 1889 entrées. Chaque ressource est décrite selon les attributs suivants:
UtilisationsLa LRE Map est un outil très important pour comprendre l'activité du TAL. Comparativement à d'autres études qui sont fondées sur des évaluations subjectives, la LRE Map repose sur des faits réels. La LRE Map a aussi un grand potentiel en plus d'être un outil de collecte d'informations:
Matrices dérivéesLes données ont été nettoyées et triées par Joseph Mariani (CNRS-LIMSI IMMI) and Gil Francopoulo (CNRS-LIMSI IMMI + Tagmatica) afin de calculer les différentes matrices du rapport final FLaReNet[9]. Ainsi, par exemple, l'une d'elles, la matrice pour les données écrites issue de LREC-2010 donne ce qui suit:
Il doit être noté que, sans surprise, l'anglais est la langue la plus étudiée. En deuxième, viennent le français et l'allemand, ensuite l'italien et l'espagnol. FuturLa LRE Map sera étendue au journal LRE et à d'autres conférences. Références
Lien externe |