Triplet RDFLe triplet RDF est la plus petite structure de description de ressources du modèle RDF[1]. C’est une déclaration ou assertion sur une ressource[2]. Cette déclaration RDF est appelée triplet, car elle suit la structure : « sujet - prédicat - objet »[3]. Ainsi, la déclaration RDF Mona Lisa a pour créateur Léonard de Vinci est un triplet :
Description : sujet, prédicat, objetLe triplet RDF comprend trois éléments, sujet, prédicat, objet, conventionnellement écrits dans cet ordre[4]. Le sujet et l'objet du triplet RDF
On distingue deux sortes de littéraux : les littéraux ordinaires (chaîne de caractères non typée) et les littéraux typés pour qualifier une chaîne de caractères (couple formé d'une chaîne de caractère à une référence URI qui identifie un type de données particulier)[8]. Un littéral est typé par un URI pour exprimer la nature de la chaîne de caractère. Cet URI peut être simplifié. Par exemple, pour indiquer que la chaîne de caractère est un âge, on qualifie le littéral par l'URI abrégé xsd:integer ou http://www.w3.org/2001/XMLSchema#integer[9]. Le prédicat du triplet RDF
URIs, préfixes et vocabulaires RDFEn RDF, toutes les ressources sont identifiées et nommées par des URIs (Universal Resource Identifier) de façon unique et pérenne. Ainsi, les ressources des triplets « Mona Lisa a pour créateur Léonard de Vinci » et « Mona Lisa a pour lieu le Musée du Louvre » peuvent être nommées par des URIs extraits du référentiel Wikidata.
Les préfixes et vocabulaires RDFLa notation des URIs est simplifiée par des préfixes. Les préfixes désignent un espace de noms (espace de nommage ou namespace), c’est-à-dire un ensemble de termes se rapportant au même vocabulaire RDF (ontologies RDF, schéma RDFS, langage OWL). Ces vocabulaires RDF fournissent les URIs qui identifient les propriétés des triplets RDF et les classes (ou catégories) des ressources décrites dans les triplets RDF. Dans le référentiel Wikidata, le préfixe <wd:> est associé au début d'URI <http://www.wikidata.org/entity/> pour nommer une ressource (sujet ou objet du triplet) et le préfixe <wdt:> est associé au début d’URI <http://www.wikidata.org/prop/direct/> pour nommer la ressource prédicat ou propriété du triplet. Ainsi, les URIs des ressources des deux triplets RDF Mona Lisa a pour créateur Léonard de Vinci et Mona Lisa a pour lieu le Musée du Louvre sont notés de la façon simplifiée suivante :
Ces deux triplets RDF ayant le même sujet, Mona Lisa, identifiée par l'URI <wd:Q12418> forment un graphe. Des triplets sous forme d'un graphePar convention, RDF propose de représenter les triplets sous la forme d'un graphe :
Ainsi, un triplet RDF est un graphe orienté[14]. La figure 1 est un graphe RDF représentant la déclaration « La ressource http://example.org/123 a son titre "Learning Biology" en anglais ». Ce graphe utilise les propriétés de l'ontologie Dublin Core, selon les recommandations de la Dublin Core Metadata Initiative[15]. La figure 2 représente le graphe des deux triplets qui ont pour sujet commun Mona Lisa, identifiée par l'URI <wd:Q12418>. Cette ressource forme un nœud qui relie les deux triplets. La figure 3 représente les graphes de trois triplets dont l'objet de l'un est une ressource et l'objet des deux autres un littéral (chaîne de caractères). Les trois triplets sont reliés entre eux par un nœud On the Origin of Species, identifié par l'URI <wd:Q20124>, qui est le sujet des trois triplets.
Une même ressource peut donc être sujet, prédicat ou objet de plusieurs triplets. L’ensemble de ces triplets, reliés les uns aux autres par les URI des ressources qu’ils ont en commun, forme un graphe. Cette notion de graphe implique que des triplets concernant une même ressource, par exemple Mona Lisa ou On the Origin of Species peuvent faire partie de graphes différents, reliés par un URI commun, <wd:Q12418> ou <wd:Q20124>. Il est donc possible de créer des liens entre graphes isolés, représentant des jeux de données différents, à partir de référentiels communs à ces jeux de données. Ces référentiels fournissent des réservoirs d’URI, grâce auxquels il est possible de naviguer d’un graphe à l’autre, d’un jeu de données à l’autre, suivant le principe de l’hypertexte. Les URI vont être des points de contact entre ces graphes isolés et les transformer en un graphe global géant. En novembre 2007, Tim Berners-Lee utilise l'expression « Giant Global Graph » pour désigner la somme de l'ensemble des triplets disponibles sur le Web[16]. Les syntaxes de sérialisation des tripletsLe modèle de graphe est un modèle abstrait qu’il faut doter d’une syntaxe concrète, si l’on veut pouvoir le représenter en machine. La description des triplets est appelée sérialisation et les syntaxes sont aussi appelés formats ou langages. Il y a plusieurs syntaxes de sérialisation des graphes RDF : RDF/XML, N-Triples, Turtle et N3, JSON-LD, RDFa. Ce sont tous des langages textuels car on peut les décrire par un éditeur de texte. Ils se différencient par leur lisibilité par les humains. La première famille de syntaxes comprend N3, N-Triples et Turtle.La syntaxe Turtle (Terse RDF Triple language), normalisée par le W3C dans le cadre des travaux RDF 1.1[17], est la plus lisible pour les humains. Ces syntaxes reposent sur un principe : un triplet correspond à une phrase qui se termine par un point Par convention, les URIs sont représentés entre La syntaxe Turtle permet des simplifications permettant de considérablement compresser le fichier ou en améliorer la présentation pour un humain :
Le fichier Turtle comprend donc généralement deux parties :
Exemples de triplets ayant pour sujet l'entité du référentiel Wikidata De l’origine des espèces suivant la syntaxe Turtle :
@prefix wd: <http://www.wikidata.org/entity/> .
@prefix wdt: <http://www.wikidata.org/prop/direct/> .
wd:Q20124 wdt:P50 wd:Q1035 ;
wdtn:P214 <http://viaf.org/viaf/313683363> ;
wdtn:P227 <https://d-nb.info/gnd/4303201-1> ;
wdtn:P244 <https://id.loc.gov/authorities/names/n81105854> ;
wdtn:P268 <http://data.bnf.fr/ark:/12148/cb122870840#about> ;
wdt:P577 "1859-11-24T00:00:00Z"^^xsd:dateTime ;
wdt:P1476 "On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life"@en ;
wdtn:P269 <http://www.idref.fr/031705685/id> ;
wdtn:P5331 <http://worldcat.org/entity/work/id/3901191602> .
La deuxième syntaxe utilisée pour sérialiser les triplets est RDF/XML.Un document RDF/XML a obligatoirement un élément racine La balise XML principale est
Exemples de triplets ayant pour sujet l'entité du référentiel Wikidata De l’origine des espèces suivant la syntaxe XML/RDF à partir du téléchargement du fichier texte de la page d’informations sur l’entité Q20124 pour représenter les trois triplets du tableau et du graphe de la fig. 2 et les relations avec les identifiants des autres référentiels : <rdf:RDF
xmlns:rdf="..."
xmlns:wd="http://www.wikidata.org/entity/"
xmlns:wdt="http://www.wikidata.org/prop/direct/"
>
<rdf:Description rdf:about="http://www.wikidata.org/entity/Q20124">
<wdt:P50 rdf:resource="http://www.wikidata.org/entity/Q1035"/>
<wdtn:P214 rdf:resource="http://viaf.org/viaf/313683363"/>
<wdtn:P227 rdf:resource="https://d-nb.info/gnd/4303201-1"/>
<wdtn:P244 rdf:resource="https://id.loc.gov/authorities/names/n81105854"/>
<wdtn:P268 rdf:resource="http://data.bnf.fr/ark:/12148/cb122870840#about"/>
<wdt:P577 rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">1859-11-24T00:00:00Z</wdt:P577>
<wdt:P1476 xml:lang="en">On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life</wdt:P1476>
<wdtn:P269 rdf:resource="http://www.idref.fr/031705685/id"/>
<wdtn:P5331 rdf:resource="http://worldcat.org/entity/work/id/3901191602"/>
</rdf:Description>
</rdf:RDF>
Deux autres syntaxes de description JSON-LD et RDFa
Triplets RDF et données des bibliothèquesL’objectif de la transition bibliographique est de rendre plus visible les données des catalogues de bibliothèques dans le web. Dans ce but, les catalogues des bibliothèques doivent adopter les principes du web de données :
Dans les catalogues de bibliothèques, ces données décrites dans les triplets RDF sont les entités définies dans le modèle IFLA LRM (res, œuvre, expression, manifestation, item, agent, personne, groupe, lieu, laps de temps, nomen)[21]. L’enjeu pour les catalogues est de créer, grâce à leur intégration dans un graphe global d’information (le web de données) et à l’usage de référentiels communs, un cadre d’interopérabilité entre eux. L'Incubator Group du W3C (LLD XG)[22] a été créé par le W3C en 2010 pour étudier l’adoption du Web de données en bibliothèque. Il a relié les notions du domaine des bibliothèques à celles de la communauté du web de données et a classé ces référentiels communs (jeux de données réutilisables et échangeables) en 3 catégories :
Ces référentiels permettent de faire des liens entre les catalogues qui sont des jeux de données décrits suivant des modèles différents. Des ontologies (vocabulaires RDF) appliquées aux données des bibliothèques
SKOS, ontologie pour décrire les thésaurus et vocabulaires contrôlésSKOS est un vocabulaire RDF dont l’objet est de fournir un modèle commun pour la description des thésaurus, systèmes de classifications et de lier ces référentiels. Des triplets RDF créent des alignements d’une autorité Rameau de la BnF avec d’autres référentiels (Wikidata, Library of Congress Subject Headings, Schlagwortnormdatei (de)). Ils décrivent aussi les liens hiérarchiques des notices d’autorité ou les notes de contenu. Les données de référence du Répertoire d'autorité RAMEAU sont disponibles sur data.bnf.fr depuis février 2012[23]. Ainsi, dans la notice Nom Commun Culture , des exemples de triplets d’alignements, de déclaration de hiérarchie et de note de contenu, à l'aide des propriétés de l'ontologie SKOS, peuvent être extraits :
SKOS est un modèle générique de représentation de vocabulaires contrôlés. Pour décrire des relations plus spécifiques (subdivision, vedettes construites), il faut faire appel à d’autres ontologies comme MADS/RDF (en), FRAD, FRSAD et les métadonnées de RDA. Référentiels d'autorité et interopérabilitéIl existe deux modèles structurels d’interopérabilité pour les vocabulaires contrôlés : pivot et paire. L’alignement de référentiels par paire concerne les référentiels des autorités matières des bibliothèques (Rameau, LCSH, GND allemandes)[24],[25]. Dans le référentiel VIAF[26], le modèle d’alignement est celui de la roue et de l’essieu (hub and spoke) : un point central (essieu ou pivot) consolide les données d’autorité des bibliothèques (roue): un référentiel sert de pivot. VIAF relie tous les identifiants des autorités des bibliothèques et d’autres référentiels (ISNI, DBpedia) par la relation d’équivalence schema:sameAs de l’ontologie schema.org. Cette ontologie a été définie en 2011 par Google, Bing et Yahoo ! pour disposer d’informations structurées et permettre de mieux répondre aux questions posées par les internautes. Triplet déclarant l’équivalence entre l’identifiant VIAF et l’identifiant ISNI de l’autorité « Hugo, Víctor, 1802-1885 » dans la notice VIAF affichée en RDF :
Dans les notices d’autorité des bibliothèques nationales ou collectifs (Sudoc), la relation d’équivalence avec l’identifiant VIAF est empruntée au langage de description des ontologies OWL qui peut déclarer des ressources équivalentes grâce à la propriété owl:sameAs, préfixe de <http://www.w3.org/2002/07/owl#sameAs>. Ce langage de description des ontologies OWL joue un rôle important dans le web sémantique et le web de données, car il permet l’alignement des données d’autorité de jeux de données différents. Triplet déclarant l’équivalence entre l’identifiant de data.bnf.fr de l’autorité « Hugo, Víctor, 1802-1885 » et l’identifiant VIAF dans la notice d’autorité de data.bnf.fr affichée en RDF/XML :
Triplet déclarant l’équivalence entre l’identifiant d’idref.fr de l’autorité « Hugo, Víctor, 1802-1885 » et l’identifiant VIAF dans la notice d’autorité d’idref.fr exportée en RDF :
Jeux de données de référence en France : data.bnf.fr et data.idref.frEn France, des jeux de données de référence (data.bnf.fr, data.idref.fr) permettent d’intégrer les données des catalogues dans le web de données. Data.bnf.frCréé en 2011 par la Bibliothèque nationale de France (BnF), Data.bnf.fr expose les données de la BnF en RDF, pour améliorer leur visibilité sur le web en adoptant les principes du web sémantique : structure des données en triplets RDF et identification de celles-ci par des URIs [27]. Les entités du modèle FRBR sont reliées par des triplets RDF. Les URIs des ressources sont les liens pérennes ark. Une partie des données est alignée à des jeux de données ou référentiels extérieurs : VIAF, Idref, Wikidata. Un schéma permet de visualiser le modèle de données RDF de data.bnf.fr[28]. Il présente des triplets RDF pour décrire les relations entre les entités œuvre, auteur, manifestation, expressions, concept, lieu, date, spectacle. Les propriétés sont décrites en empruntant à l’ontologie Dublin Core ou au vocabulaire RDF associé aux règles de catalogage RDA[29]. Suivant le formalisme graphique de RDF, les ressources sont ces entités désignées par des URIs. Les entités ressources sont représentées par des ovales, les littéraux par des rectangles. Les ontologies sont utilisées pour décrire les autorités personnes et organisations (FOAF), sujets (SKOS), les œuvres, expressions, manifestations, items (rdaregistry). Les jeux de données sont désignés par des rectangles fléchés et les préfixes utilisés pour décrire les URIs indiqués en bas du modèle. Triplet dans une notice d’œuvre On the origin of the species by means of natural selection de Charles Darwin de data.bnf.fr :
Le Sudoc en RDFDepuis octobre 2010, les notices d'autorité d'IdRef sont accessibles sur le Web de données en RDF[30],[31]. Des triplets sont extraits d'une notice IdRef : http://www.idref.fr/026927608.rdf · Le premier triplet indique que la ressource identifiée par l'URI http://www.idref/026927608/id est de type Personne. · Le suivant contient le nom et le prénom de cette personne[32].
Les notices bibliographiques du Sudoc sont accessibles depuis 2011 sur le Web de données en RDF[33]. Triplets dans une notice Sudoc sous format RDF/XML :
Ces deux triplets ont pour même sujet le document Le roman de la Rose de Jean de Meung, identifié par son URI <http://www.idref.fr/02665976X/id>[3]. Le premier triplet a pour objet le titre du document. Le second triplet a pour objet l'auteur du document.
Ces trois triplets forment donc un graphe. Le triplestore data.idref.frLe triplet est l'unité de données la plus petite contenue dans un graphe de type RDF (Resource Description Framework) au sein d'une base de données de type triplestore. Depuis janvier 2019, l'ABES propose un nouveau service le Triplestore data.idref.fr. Il permet d'interroger, via une interface web, les données IdRef et les références bibliographiques liées en provenance du Sudoc, exposées sous forme de triplets. En 2020, le triple store data.idref.fr expose environ 165 millions de triplets RDF : 4 millions de notices d’autorités reliées par des liens diversifiés aux 13 millions de références bibliographiques Sudoc[34]. Dans le triple store d'IdRef, les notices d’autorité IdRef et les références bibliographiques liées, en provenance du Sudoc, sont converties sous la forme de triplets RDF. Tous les types de notices d'autorité sont présents : Personnes, Collectivités, Noms Communs (Rameau et FMeSH), Noms géographiques, Familles et Titres. Les références bibliographiques se présentent sous la forme d’URIs et pointent vers les autorités. Cela signifie que les triplets des liens bibliographiques ont pour « sujet » les URIs des références Sudoc et pour « objet » les URIs des autorités IdRef[35]. Les déclarations RDF suivantes sont modélisées dans la notice RDF, la date et le titre étant des littéraux : On the Origin of species by means of natural selection, or the preservation of favoured races in the struggle for life / by Charles Darwin,... a pour auteur <Charles Darwin>, On the Origin of species by means of natural selection, or the preservation of favoured races in the struggle for life / by Charles Darwin,... a pour date "1859". On the Origin of species by means of natural selection, or the preservation of favoured races in the struggle for life / by Charles Darwin,... a pour titre "On the Origin of species by means of natural selection, or the preservation of favoured races in the struggle for life / by Charles Darwin,..."
Les règles de conversion ou mappingDes règles de conversion ou mapping permettent de convertir les données des catalogues au format MARC en RDF. Des tableaux font la correspondance entre les zones MARC et les propriétés des vocabulaires RDF utilisés dans le modèle de données. Dans le modèle de données du Sudoc en RDF, des tableaux font la correspondance Unimarc-RDF entre les zones Unimarc et les propriétés des vocabulaires RDF utilisés dans le modèle. Notes et références
Voir aussiArticles connexesLiens externes |
Portal di Ensiklopedia Dunia