GlobalAtlasGlobalAtlas (ou Global Atlas) est une base de connaissances libre centrée sur les noms propres destinée au Web sémantique[1]. GlobalAtlas est utilisé principalement dans le domaine de la veille pour des domaines aussi divers que la télévision, l'équitation, l'athlétisme, le transport aérien ou la téléphonie. Mécanisme de constructionLa base de connaissances est constituée par extraction automatique de trois Wikipédias (en anglais, en français et en espagnol) avec les traductions vers quinze autres langues (allemand, danois, grec, italien, letton, lituanien, maltais, néerlandais, polonais, portugais, roumain, slovaque, suédois, suédois, tchèque). L'extraction part des dumps Wikipedia. L'algorithme d'extraction opère sur les types de données suivants:
L'extraction séparée des trois langues principales (anglais, français et espagnol) est suivie d'une fusion des entrées via les liens de traduction entre ces trois langues. Ensuite, les liens de traduction vers les quinze autres langues sont ajoutés sous forme de variantes graphiques. Notons que les catégories ne sont pas utilisées car leur qualité et leur contenu ont été jugés comme étant trop hétérogènes pour être exploités automatiquement de manière fiable. Modèle de donnéeLes données sont structurées conformément à LMF qui est le standard ISO des dictionnaires électroniques. Les objets principaux sont d'une part les entrées lexicales (la classe LexicalEntry dans le jargon LMF) pour représenter les graphies des noms propres, et d'autre part, le Synset pour regrouper les entrées lexicales synonymes. Ainsi par exemple, « Nicolas Sarkozy » est une entrée lexicale et « Sarko » en est une autre. Ces deux objets sont connectés à une même instance de Synset. Une entrée lexicale qui est un multi-mots est décomposée en une liste ordonnée d'autres entrées lexicales. C'est le cas pour « Nicolas Sarkozy » qui comporte un prénom et un nom de famille. Ce n'est le cas pour « Sarko ». Les connaissances encyclopédiques sont portées par l'instance de Synset et non par l'entrée lexicale. Ces informations encyclopédiques dépendent du type d'objet. Ce sera par exemple le pays du siège social pour une société, ou la latitude/longitude pour une ville. Les synsets sont organisés de manière précise selon une ontologie exprimée en OWL et comportant un millier de nœuds[2]. Chaque Synset dispose d'un identifiant stable dans le temps et non-recyclé, c'est-à-dire qu'en cas de suppression dans Wikipedia, l'identifiant n'est pas réaffecté à un autre Synset. De manière systématique, GlobalAtlas respecte les standards ISO pour les constantes à tous les niveaux. Par exemple, les chiffres d'affaires sont exprimés conformément à l'ISO-4217 pour le codage de la devise (ex: INR pour la roupie indienne). Ou encore, le pays du siège social d'une société, qui permet de déterminer la nationalité d'une société, est exprimé conformément à l'ISO-3166 alpha-3 (ex: BOL pour Bolivie). De même, les valeurs linguistiques comme le genre grammatical respectent le registre des méta-données de l'ISO défini par l'ISO-12620 (www.isocat.org). ComparaisonGlobalAtlas se distingue de DBpedia ou SemanticPedia sur les points suivants:
En revanche, GlobalAtlas a plus de similarité avec Freebase qu'avec DBpedia, tout en étant de taille beaucoup plus petite. DénombrementEn , GlobalAtlas comporte 1,1 million d'entrées lexicales et 700 000 synsets. GlobalAtlas a été construit par Gil Francopoulo (Tagmatica/Spotter)[3], Frédéric Marcoul (Spotter), David Causse (Spotter) et Grégory Piparo (Spotter). Son objectif porte davantage sur l'obtention des noms et leurs variantes plutôt que sur la richesse des informations encyclopédiques. Site WebRéférences
|