Wikipédia:RAW/2016-01-15

Brèves

15 ans, déjà — Le projet Wikipédia est officiellement créé le 15 janvier 2001, alors que la Wikipédia en français est officiellement fondée le 23 mars de la même année. Le 23 septembre 2010, cette dernière atteint la barre symbolique du million d'articles. Au 15 janvier 2016, elle compte presque 1 715 000 articles. Une extrapolation simpliste laisse croire qu'elle comptera 2 millions d'articles le 15 janvier 2018. La Wikipédia en anglais comprend le plus grand nombre d'articles, 5 millions, devançant largement la suivante, en suédois, qui en compte plus de 2,8 millions [1]. Il y a présentement 12 Wikipédias linguistiques qui dépassent le million d'articles et 44 autres qui dépassent 100 000 articles [2]. Parmi les 12 premières par la taille, quatre font partie du club du million à cause du bot Lsjbot [3], [4].
L'ensemble des Wikipédias linguistiques a créé plus de 2,5 millions d'articles en 2015. La communauté wikipédienne élargie a apporté quelque 115 millions de modifications sur cette même période, que ce soit pour exprimer une opinion dans une page de discussion, pour voter contre la suppression d'un article, pour mettre à jour un article ou pour simplement corriger une faute d'orthographe. [5]
Vous pouvez exprimer votre attachement à Wikipédia, en anglais.

Les plus modifiés — Un wikipédien anglophone a créé une liste des 20 articles les plus modifiés en 2015 de la Wikipédia en anglais. Parmi ceux-ci [6], notons :

Calendrier du DP — Le site aventdudomainepublic.org a complété son calendrier de l'avent qui indique les auteurs qui sont entrés dans le domaine public (DP) au 1er janvier 2016. La page mentionne le compositeur français Maurice Ravel, le scientifique français Claude Gaillard (spécialiste des animaux de l'Égypte ancienne), le pasteur luthérien Dietrich Bonhoeffer (un Allemand qui s'est opposé au nazisme), le président américain Franklin Delano Roosevelt, le dictateur allemand Adolf Hitler (son Mein Kampf en allemand est donc dans le DP), le généticien américain Thomas Hunt Morgan, le général américain George Patton, le romancier autrichien Felix Salten (auteur de Bambi), l'écrivain français Paul Valéry, le mosaïste français Isidore Odorico, le compositeur français Vincent d'Indy, l'Allemande Anne Frank, la chanson Happy Birthday et le philosophe, sociologue, économiste et graphiste autrichien Otto Neurath (fondateur du Cercle de Vienne).

L'article en:2016 in public domain liste les artistes qui sont entrés dans le domaine public en 2016. Selon Wikidata, il y en au moins 365, dont le poète français Robert Desnos[1] et le dictateur italien Benito Mussolini. (Pour afficher les descriptions en français, inscrivez fr wikipedia org tout en haut de la page et lancez à nouveau la recherche.)
L'EFF a créé ce mots croisés (en anglais), que vous pouvez remplir en ligne.

Naruto — Un juge fédéral américain a rejeté la plainte pour violation de copyright des selfies du singe Naruto. Il explique qu'aux États-Unis, les animaux ne peuvent détenir un copyright et ajoute que seul le Congrès des États-Unis est apte à modifier la loi pour leur accorder ce droit. En 2014, l'United States Copyright Office a rappelé que la nature, les animaux ou les plantes ne peuvent détenir de copyright sur un produit issu de leurs efforts. [7]

Entente BnF et Apple — La BnF et la société Apple ont passé une entente de distribution exclusive de textes au format ePub. Elle porte sur 10 000 ouvrages diffusés par Gallica. « L’exclusivité accordée au partenaire privé est uniquement de nature commerciale et porte sur la seule couche ePub. Ce partenariat ne remet pas en cause la disponibilité des livres numérisés sur Gallica, qui resteront accessibles et téléchargeables en mode texte et en mode image. Par ailleurs, les eBooks vendus sur l’ibooks Store ne comportent pas de DRM. » (fr)[8]

WikiMOOCWikimédia France et des bénévoles offrent un cours sur le site France université numérique pour apprendre à contribuer à Wikipédia. « Ce MOOC (des cours en ligne gratuits et ouverts à tous) est conçu pour vous faire entrer dans les coulisses de la plus grande encyclopédie au monde : comprendre son fonctionnement, ses règles, découvrir sa communauté (sans hiérarchie), la manière dont la fiabilité du contenu est assurée, etc. » Le cours débute à la fin février 2016 et se termine un mois plus tard. « À la fin du WikiMOOC, vous serez même amené à créer votre tout premier article sur Wikipédia. »

180 000 images libres — Au début de janvier 2016, le site de la bibliothèque publique de New York place 180 000 images de qualité variable dans le domaine public. (fr)[9] <On en parle sur le bistro de Wikipédia et de Commons.>

30 000 000 — La banque de fichiers multimédias libres Wikimedia Commons a franchi le cap des trente millions de fichiers.

Discuter (les commentaires sont automatiquement inclus ici)

Labels récents

Constamment, la qualité de Wikipédia en français augmente grâce aux efforts de bénévoles passionnés. Ces deux dernières semaines, quatre articles de qualité (AdQ) et quatorze bons articles (BA) ont enrichi notre wiki.
Le projet compte désormais 1 468 articles de qualité et 2 432 bons articles.
Deux de ces articles labellisés ont été retranscrits par Arctara. Vous pouvez les écouter en cliquant sur le picto suivant : Pictogramme indiquant un article audio.
Vous pouvez consulter plus d'images d'un article en cliquant sur le logo Commons-logo.
La Wikipédia en français comprend donc 4 000 articles labellisés :

Articles de qualité

affiche en couleur de propagande américaine datée de 1943. Une femme maquillée, en plan rapproché taille, corps de 3/4 et visage de face, relève la manche droite de son bleu de travail, et affiche un poing est fermé. Le titre We can do it! (on peut le faire) est inscrit dans une bulle.
We Can Do It! - Cette affiche de propagande américaine de 1943 symbolise l'émancipation des femmes par le travail.

Lien vers un article audio L'histoire du féminisme commence dans la seconde partie du XIXe siècle, lorsque ce mot apparaît sous la plume d'Alexandre Dumas fils puis sous celle d'Hubertine Auclert. Cependant, le discours féministe s'élabore dès la fin du Moyen Âge. Son histoire est le plus souvent divisée en trois périodes. Ainsi la première se réfère au XIXe et au début du XXe siècle quand les principales revendications se rapportent au droit de vote, aux conditions de travail et aux droits à l'éducation. La deuxième vague (1960-1980) dénonce l'inégalité des lois, mais aussi les inégalités culturelles et remet en question le rôle de la femme dans la société. La troisième vague (fin des années 1980-début des années 2000) est perçue à la fois comme une continuation de la seconde vague et une réponse à l'échec de celle-ci. En fonction de la période, des cultures ou du pays, les féministes, à travers le monde, ont défendu des causes et affiché des objectifs différents.

Cet article obtient le label surtout grâce aux efforts des contributeurs Olivier tanguy (pour le féliciter) et Secotyne (pour la féliciter).

Vampire : La Mascarade - Rédemption est un jeu vidéo développé par Nihilistic Software et édité par Activision en 2000. Le jeu met en scène les aventures de Christof Romuald, un chevalier français du XIIe siècle qui revit sous la forme d'un vampire après son décès. Le jeu suit ce personnage durant plusieurs siècles et sur plusieurs lieux, depuis Prague et Vienne au XIIe siècle jusqu'aux Londres et New York du monde moderne, à la recherche de son humanité perdue et de la religieuse Anezka, sa bien-aimée kidnappée. Le jeu inclut aussi un mode multijoueur appelé Conteur, qui permet à un joueur de créer une intrigue et une quête complète pour un groupe de joueurs, laissant la possibilité au conteur de modifier le déroulement de jeu dynamiquement en fonction de leurs actions dans le jeu. Vampire est considéré comme le renouveau du jeu vidéo de rôle et reçoit la récompense du meilleur jeu de rôle au Game Critics Awards lors de l'E3 1999. A sa sortie, la presse lui réserve un accueil mitigé.

Cet article obtient le label surtout grâce aux efforts du contributeur Archimëa (pour le féliciter).

Sandstorm est une composition instrumentale du producteur et disc jockey finlandais Darude mise en ligne en . Le titre est musicalement rattaché à la trance et se reconnaît à sa ligne de synthétiseur principale, répétitive et saccadée. Il rencontre d'abord le succès en Finlande à la fin de l'année 1999 puis devient un tube international en 2000. Le single connaît surtout le succès en Europe, où il atteint le top 10 dans plusieurs pays, et se vend à plus de 2,5 millions d'exemplaires dans le monde. Le titre est également bien accueilli par la presse musicale. Devenu populaire dans le milieu sportif, Sandstorm a aussi fait l'objet d'un mème sur Internet, qui consiste à répondre « Darude – Sandstorm » lorsque quelqu'un demande le nom d'une chanson présente dans une vidéo. Il a souvent été repris et remixé, en particulier depuis sa popularisation sur Internet.

Cet article obtient le label surtout grâce aux efforts du contributeur Synthwave.94 (pour le féliciter).
Leopardus guigna.

Lien vers des images Le Guigna (Leopardus guigna) est le plus petit félin d'Amérique. Il se caractérise par sa petite tête aux oreilles rondes, sa queue courte et touffue, ses pieds larges et son pelage gris fauve à brun tacheté de noir. Territorial et solitaire, il est fortement dépendant de la forêt du centre et du nord du Chili ainsi qu'une petite zone de l'Argentine. Le Guigna est principalement menacé par la perte et la fragmentation de son habitat. Le braconnage est la seconde menace pesant sur l'espèce. Considéré comme vulnérable par l'Union internationale pour la conservation de la nature, le Guigna est protégé sur l'ensemble de son aire de répartition.

Cet article obtient le label surtout grâce aux efforts du contributeur Abujoy (pour le féliciter).

Bons articles

La reproduction d'un petit tableau à l'huile représentant un homme jeune, barbu, au regard franc
Portrait de Pierre Aymeric par Corneille de Lyon

Lien vers des images Corneille de Lyon ou Corneille de la Haye est un peintre portraitiste franco-hollandais né entre 1500 et 1510 à La Haye et mort en 1575 à Lyon. On ne sait rien de sa jeunesse hollandaise ; il arrive à Lyon au plus tard en 1533 et y passera le restant de ses jours. Il obtient le titre de peintre royal en 1541. Ses petits portraits sans décor sont novateurs pour l'époque. À sa mort sa renommée s'efface, et il sera brièvement redécouvert au XVIIe siècle puis au XIXe siècle. Reproduite ci-contre, la première œuvre à lui être attribuée sans ambiguïté est découverte en 1962 ; la première synthèse qui lui est consacrée est réalisée en 1996.

Cet article obtient le label surtout grâce aux efforts du contributeur Cedalyon (pour le féliciter).

La Coupe Stanley, d'abord appelée Dominion Hockey Challenge Cup, est décernée chaque année par la Ligue nationale de hockey à l'équipe championne des séries éliminatoires et désigne ainsi la meilleure équipe d'Amérique du nord. Existant depuis 1893, elle a été remportée 24 fois par l'équipe des Canadiens de Montréal, ce qui constitue un record.

Cet article obtient le label surtout grâce aux efforts du contributeur TaraO (pour le féliciter).
Une plante verte portant de rares fleurs mauves, identifiée par une étiquette
Les plants de Micromeria glomerata au Conservatoire botanique national de Brest

Lien vers des images Micromeria glomerata, localement nommée tomillo de risco, ou encore tomillo de Taganana, est une espèce de plantes à fleurs chaméphyte ligneuse, appartenant à la famille des Lamiaceae. Décrite en 1974 par Pedro Luis Pérez de Paz, elle est endémique du nord-est de l'île de Tenerife, l'une des îles Canaries. Elle pousse dans la zone protégée du parc rural d'Anaga, appartenant au massif d'Anaga. Cette plante médicinale et aromatique, donnant des fleurs dans les tons rose-pourpre, pousse à faible altitude dans les fissures des pentes.

En raison de sa répartition très réduite et des menaces sur son habitat, elle est considérée comme en danger critique d'extinction. Quelques jardins botaniques participent à sa conservation, dont le Conservatoire botanique national de Brest depuis 2008.

Cet article obtient le label surtout grâce aux efforts de la contributrice Tsaag Valren (pour la féliciter).

Lien vers des images Edward aux mains d'argent, en anglais Edward Scissorhands, est un film américain réalisé par Tim Burton. Sorti en 1990, il mêle plusieurs genres cinématographiques, le fantastique, le drame romantique et la comédie. Il relate l'histoire d'un jeune homme, Edward, créé par un inventeur mais resté inachevé et qui a des ciseaux à la place des mains.

Le film, bien accueilli par la critique, est un succès commercial. Il lance la carrière de Johnny Depp, qui interprète le rôle-titre. Son réalisateur le considère comme son œuvre la plus personnelle.

Cet article obtient le label surtout grâce aux efforts du contributeur Cinephile1999 (pour le féliciter).
Dessin manga couleur, représentant une jeune fille en uniforme scolaire noir qui enlace par surprise une autre élève.
Les relations entre élèves d'établissement scolaire est l'un des thèmes récurrents du yuri.

Le yuri (百合?, lys), aussi appelé Girls' Love, désigne dans la culture populaire japonaise un genre d’œuvres de fiction centré sur les relations intimes entre femmes, qu'elles soient émotionnelles, sentimentales ou encore sexuelles. Ce genre ne se limite donc pas seulement au lesbianisme puisqu'il concerne aussi d'autres types de relations intimes comme peuvent l'être des liens spirituels ou encore des relations fusionnelles entre femmes. Le terme yuri est couramment employé dans le monde du manga et de l'anime, mais il est aussi parfois utilisé dans le cadre des jeux vidéo, de la littérature ou encore du cinéma. L'équivalent masculin du yuri est le yaoi.

Le yuri est perçu comme l'héritier du esu (エス?), un genre littéraire féminin du Japon du début du XXe siècle, avec lequel il partage de très nombreux points communs. Le yuri en tant que tel apparait au tout début des années 1970 dans les shōjo mangas, avant de s'étendre au fil des décennies à toutes les démographies du manga puis à d'autres types de média que le manga.

Cet article obtient le label surtout grâce aux efforts de la contributrice Lady freyja (pour la féliciter).
Photographie d'un requin dont les pointes noires des nageoires sont visibles.
Un requin à pointes noires

Lien vers des images Le requin à pointes noires (Carcharhinus melanopterus) est une espèce de requins de la famille des Carcharhinidae, facilement identifiable par les pointes noires de ses nageoires. D'une longueur de 1,6 m, il fait partie des requins les plus abondants des récifs coralliens tropicaux de l'océan Indien et de l'océan Pacifique. Vivipare, cette espèce majoritairement sédentaire, qui se nourrit essentiellement de petits poissons osseux, préfère les eaux côtières peu profondes, telles les rebords de récifs et les fonds sableux.

Cet article obtient le label surtout grâce aux efforts du contributeur Ben23 (pour le féliciter).
Photographie ancienne d'un homme en costume du XIXe siècle.
Claude-Marius Vaïsse

Lien vers des images Claude-Marius Vaïsse (1799 - 1864) est un fonctionnaire et homme politique français. Éphémère ministre de l'Intérieur en 1851, on lui doit surtout les travaux de rénovation urbaine de Lyon, qu'il mène en tant que préfet du Rhône. En poste à Lyon de jusqu'à sa mort, il conduit notamment la rénovation du centre-ville avec le percement de la rue Impériale (actuelle rue de la République) et de la rue de l'Impératrice (actuelle rue Édouard-Herriot) ; il fait également créer le parc de la Tête d'Or.

Cet article obtient le label surtout grâce aux efforts du contributeur El pitareio (pour le féliciter).
Peinture montrant une charge de cavalerie, sabres au clair.
Charge de cavalerie, toile d'Emilian Lăzărescu : une grande charge telle qu'imaginée par ce peintre roumain installé en France.

La cavalerie française pendant la Première Guerre mondiale a une participation relativement secondaire aux événements. Les combattants à cheval se révélant très vulnérables face à la puissance de feu de l'infanterie et de l'artillerie, les différentes unités de cette arme accomplissent essentiellement des missions d'auxiliaires pendant la « Grande Guerre » (de 1914 à 1919), même si le début du conflit correspond à son apogée en termes d'effectifs montés.

La cavalerie française est principalement déployée sur le front occidental, mais plusieurs autres régiments de cavalerie sont envoyés sur les autres théâtres d'opérations de la Première Guerre mondiale, où ils ont parfois été beaucoup plus utiles à cheval qu'à pied : au Maghreb, dans les Balkans ou au Proche-Orient.

Cette période est aussi celle du début de la mécanisation, la cavalerie française recevant pour la première fois en dotation quelques automitrailleuses.

Cet article obtient le label surtout grâce aux efforts du contributeur Lvcvlvs (pour le féliciter).
Photographie représentant une clarinette.
Une clarinette

Lien vers des images La clarinette (du provençal clarin désignant un hautbois) est un instrument de musique à vent de la famille des bois caractérisée par son anche simple et sa perce quasi cylindrique. Elle a été créée vers 1690 par Johann Christoph Denner (1655-1707) à Nuremberg sur la base d'un instrument à anche simple plus ancien : le « chalumeau ». La clarinette soprano (en si♭) est le modèle le plus commun.

La perce cylindrique de la clarinette la distingue du hautbois et du saxophone, tous deux à perce conique, et lui confère une aptitude au quintoiement. Son timbre chaud dans le registre grave, peut s'avérer extrêmement brillant voire perçant dans l'aigu.

De tous les instruments à vent, la clarinette possède la plus grande tessiture avec trois octaves plus une sixte mineure, soit 45 notes en tout. Elle se décline en une famille d'instruments presque tous transpositeurs, depuis la clarinette contrebasse jusqu'à la clarinette sopranino, couvrant ainsi toute l'étendue d'un orchestre symphonique. À l'exception des percussions, la clarinette est l'instrument qui possède la plus grande famille.

On utilise la clarinette dans la musique classique et traditionnelle ainsi que dans le jazz.

Cet article obtient le label surtout grâce aux efforts du contributeur v_atekor (pour le féliciter).
Cheval lourd et gras de couleur fauve, à la crinière et à la queue plus claires, en train de brouter.
Cheval lourd de race comtoise.

Lien vers des images Un cheval lourd, ou cheval de boucherie, est un cheval élevé pour son aptitude à produire de la viande. Issus de races de trait autrefois employées pour le travail agricole, ces chevaux étaient menacés d'une extinction prochaine dans les années 1970. Cet état de fait a poussé leurs éleveurs à rechercher de nouveaux débouchés économiques. Très faste dans les années 1980 en France, l'élevage du cheval lourd a permis de sauvegarder les races. Il s'est développé en Italie et en Espagne, mais est désormais en recul en France, depuis le retour des activités de travail avec les chevaux de trait.

Cet article obtient le label surtout grâce aux efforts de la contributrice Tsaag Valren (pour la féliciter).

Lien vers un article audio Les Sept Boules de cristal est le treizième album de la série de bande dessinée Les Aventures de Tintin, créée par le dessinateur belge Hergé. L'histoire constitue la première partie d'un diptyque qui s'achève avec Le Temple du Soleil.

Cet article obtient le label surtout grâce aux efforts du contributeur Crijam (pour le féliciter).
Une photographie en noir et blanc représentant un groupe de jeunes hommes posant
L'équipe de Colombie aux J.O. 1936 à Berlin

Lien vers des images La Colombie, aux Jeux olympiques d'été de 1936, en est à sa deuxième participation à des Jeux d'été. Cette année-là, les Jeux se déroulent du 1er au à Berlin en Allemagne. À la suite de la création du comité olympique colombien le par Alberto Nariño Cheyne, qui permet à la Colombie de participer de façon officielle aux Jeux olympiques pour la première fois, une délégation nationale est composée de six athlètes et de sept accompagnateurs, avec pour porte-drapeau José Domingo Sánchez.

Notons que l'article précédent, « Colombie aux Jeux olympiques d'été de 1932 », a reçu le label « bon article » en février 2013. Quelle constance dans l'effort ! Bravo !

Cet article obtient le label surtout grâce aux efforts du contributeur £e p$y £éon (pour le féliciter).
La reproduction d'une médaille représentant un homme jeune et couronné
Alexis II dans le Promptuarii Iconum Insigniorum

Alexis II Comnène (1169 - 1183) est un empereur byzantin ayant régné de 1180 à 1183. Il a été couronné coempereur à l'âge de deux ans, s'est marié à onze (avec Agnès de France, fille de Louis VII et d'Alix de Champagne) avant que de succéder à son père quelques mois plus tard. Soumis à l'influence de son cousin Andronic Comnène, qui le fait couronner une deuxième fois en 1182, il fait à sa demande condamner à mort sa propre mère. Il fait ensuite couronner coempereur Andronic... et mourra étranglé, à la demande de ce dernier, qui lui succédera.

Cet article obtient le label surtout grâce aux efforts du contributeur Spartan 117 (pour le féliciter).
Un timbre représentant, devant des tremplins de saut à ski, des skieurs empruntant une piste de fond
Les tremplins Russki Gorki et le combiné nordique célébrés par la poste russe

Lien vers des images Les épreuves de combiné nordique aux Jeux olympiques d'hiver de 2014 se tiennent du au au complexe de tremplins Russki Gorki dans la station de sports d'hiver de Krasnaïa Poliana, qui se trouve près de Sotchi, en Russie.

Le combiné nordique fait partie du programme olympique depuis les premiers Jeux olympiques d’hiver, en 1924. Cette discipline est la seule de ces Jeux olympiques qui reste exclusivement masculine, mais sa féminisation a commencé il y a peu.

Le favori Eric Frenzel remporte l'épreuve sur le tremplin normal. Jørgen Graabak s'impose au sprint devant Magnus Moan et Fabian Riessle sur le grand tremplin. L'équipe norvégienne s'impose au sprint face à l'équipe allemande sur le relais.

Cet article obtient le label surtout grâce aux efforts du contributeur Shev123 (pour le féliciter).

Images remarquables de la Wikipédia en anglais

Chaque semaine, des images répondant à 8 critères de qualité sont mises en lumière sur la Wikipédia en anglais : n'hésitez pas à les insérer dans les articles de la Wikipédia en français, si ce n'est déjà fait.
NB : des fichiers similaires ont pu être déjà utilisés sur fr.wp, mais certaines de ces images remarquables (les peintures) ont été importées du Google Art Project ou Google Art Institute, et sont de meilleures qualité ; vous pouvez les mettre à jour sur l'encyclopédie.

Les images remarquables présentées ci-dessus ne sont toujours pas utilisées dans l'espace encyclopédique de la Wikipédia en français, à l'instant où nous rédigeons. Combien de temps allez-vous résister ?
14 photographies de qualité ont été sélectionnées ces dernières semaines ; venez vous servir : 12
Discuter (les commentaires sont automatiquement inclus ici)

Ateliers et rencontres

Au musée de Bretagne — Le 27 février prochain, à Rennes (France), une wikipermanence vous accueillera au musée de Bretagne de 14 heures 30 à 18 heures.

Agenda — Rappel : le calendrier des rencontres et ateliers organisés les trois prochains mois en France est disponible sur la page d'accueil du wiki des membres de l'association Wikimédia France.

Discuter (les commentaires sont automatiquement inclus ici)

Dans les coulisses de la Wikimedia

Dans cette parution de RAW, nous traduisons deux articles parus dans The Signpost respectivement en novembre 2015 et en décembre 2015. Le premier vante l'influence de Wikidata, alors que l'autre critique la base de données.

À propos du premier article, l'auteur indique qu'il a été rédigé pour un auditoire qui connaît peu le projet Wikipédia. Il a donc parfois sciemment transmis de fausses informations pour éviter des confusions (exemple : c'est Wikimedia Deutschland qui a lancé le projet Wikidata, pas la Wikimedia Foundation).

Wikidata : la nouvelle pierre de Rosette

Comprenant plus de 15 millions d'entrées recueillies en trois ans, on peut anticiper que Wikidata sera le principal entrepôt de données libre et ouvert de la planète. La promesse, reçue avec anticipation, de données librement diffusées que l'on peut relier semble enfin sur le point de se concrétiser : une base de données multilingue, complètement ouverte, dans le domaine public et que n'importe qui peut lire et modifier, peu importe qu'il soit humain ou machine. Il y aura encore plus d'information libre, que n'importe qui pourra consulter dans sa langue. La structure des informations de Wikidata et son format ouvert nous permettent de formuler des requêtes complexes, dynamiques, telles que « Quelles sont les plus grandes villes du monde dont le maire est une femme ? » ou « Combien de ministres sont eux-mêmes enfants de ministres ? » sont deux exemples parmi un nombre incalculable de requêtes possibles. Wikidata est un pas vers un accès encore plus ouvert sur les informations ; son importance justifie plusieurs questions que nous devons nous poser maintenant : « Quelles informations souhaitons-nous recueillir ? », « Comment les contextualiser ? », « Quelle est l'incidence de ce nouvel outil sur la gestion de la connaissance ? »

À cause d'Internet, nous croyons que l'information se trouve à un clic de nous. Des milliers de personnes publient gratuitement leurs créations en ligne : modes d'emploi, manuels, photos, vidéos, guides pour débutants, encyclopédies et bases de données. Toutes ces informations sont au bout de nos doigts. Dans le but de s'assurer que toute cette connaissance soit accessible à toutes les personnes dans leur langue et gratuitement, la Wikimedia Foundation soutient plusieurs projets, de consultation gratuite, le plus connu étant Wikipédia. La version en anglais a dépassé 5 millions d'articles en octobre 2015. Mais cette version est culturellement biaisée, largement empreinte de culture occidentale. Dans les faits, son contenu comprend seulement 30 % des articles inscrits dans les 287 autres langues, lesquelles constituent une partie du projet Wikipédia, qui comprend en novembre 2015 plus de 34 millions d'articles. Plusieurs articles qui discutent de sujets distinctifs d'une culture existent seulement dans la langue de cette culture, ce que nous pouvons déduire en observant la carte des sujets géolocalisées plus bas. Il reste encore beaucoup de travail à faire : des gens estiment qu'une encyclopédie contemporaine aspirant à couvrir l'ensemble de la connaissance humaine devrait contenir plus de 100 millions d'articles. Sachant que c'est possible et que tout est seulement à un clic de nous, nous désirons lire, dans notre langue, les biographies de tous les écrivains hongrois, maintenant. Les communautés wikis locales autour du monde tentent, au meilleur de leur connaissance, de documenter leur culture dans leur langue, mais elles détiennent peu d'influence sur les décideurs de l'ensemble du projet Wikipédia. La Wikipédia en catalan comprend des milliers d'articles sur des Catalans, mais beaucoup moins dans la Wikipédia en espagnol, encore moins dans la Wikipédia en français et vraiment moins dans la Wikipédia en anglais. Comment transmettre notre culture à l'échelle internationale si nous en sommes encore à l'étape de la documenter dans notre langue ? Comment consulter cette information si nous sommes incapables de la lire dans l'une des langues que nous maîtrisons ? La défense du multilinguisme en ligne crée des défis et des occasions.

Chaque point de lumière sur cette carte de la Terre indique un article dans l'une des Wikipédias linguistiques. Plus un endroit est lumineux, plus il y a de Wikipédias linguistiques qui en discutent. Si un endroit est « éteint », il n'y a aucun article, peu importe la langue.
Les données sont belles. Les données sont informations.

Pour répondre à plusieurs demandes, la Wikimedia Foundation a lancé le projet Wikidata en 2012. Il s'agit d'une base de données multilingue, éditée de manière collaborative, qui vise à maintenir une source commune pour certains types de données tels que les dates de naissance, les coordonnées géographiques, les noms de personnes et les notices d'autorité ; elle est gérée par des bénévoles situés partout sur la planète. Si un gouvernement change, il suffit de modifier les données pertinentes sur Wikidata pour propager automatiquement ces mises à jour dans toutes les applications liées, y compris les Wikipédias linguistiques. Nous n'avons donc plus besoin de constamment réinventer la roue. Cette approche collaborative réduit les effets de la diglossie linguistique, puisqu'une communauté réduite peut transmettre des informations qui seront reprises à plus grande échelle. À moyen terme, toutes les requêtes à Wikidata comprendront des informations provenant de partout sur la planète, pas seulement des communautés plus puissantes ou des cultures mieux connues. Une recherche des « médecins qui ont été reçus avant l'âge de 20 ans » ne donnera pas que des médecins français et anglais, mais aussi taïwanais et andorrans.

Ce projet ouvre un monde de possibilités, tant pour la coopération que pour l'usage des données : Wikidata game permet aux internaute d'apporter des milliers de petites contributions tout en jouant, y compris d'un téléphone intelligent en attendant l'autobus. Inventaire permet aux internautes de partager leurs livres favoris, alors que Histropedia publie une nouvelle façon d'apprendre l'histoire grâce à des frises chronologiques. Entre temps, des scientifiques de partout sur la planète publient des bases de données scientifiques et le domaine culturel construit une base de données de toutes les peintures connues. Tous ces projets s'appuient sur le moteur de Wikidata, lequel s'impose de plus en plus comme une nouvelle norme internationale.

Pourquoi Wikidata plutôt qu'un autre projet ? Les normes de l'Internet ne sont pas reconnues à cause de leur potentiel à devenir une référence, mais parce qu'elles peuvent créer du trafic ou parce qu'elle sont susceptibles d'être mises à jour. Le gagnant n'est pas le meilleur, mais celui qui peut rassembler le plus grand nombre d'usagers tout en étant mis à jour plus souvent. C'est l'un des avantages du projet Wikidata, puisque des milliers de bénévoles font constamment des mises à jour. En conséquence, n'importe quelle application ou projet qui s'appuie sur les big data peut tirer profit de cet ensemble de données structurées, gratuitement. Cette nouveauté doit nous amener à reconsidérer le rôle dévolu aux agents traditionnels de la connaissance (universités, centres de recherche, institutions culturelles) qui souhaitent participer, tout comme les rôles potentiels des sources d'autorité autour du monde. En comparant les bases de données libres et Wikidata, mix'n match indique les éléments à créer. C'est l'un des nouveaux outils qui créent de nouvelles sources d'autorité.

Les institutions culturelles doivent composer avec des normes différentes, ce qui amène des carences lorsqu'elles documentent les œuvres d'art de leurs catalogues (par exemple : dimensions avec cadre et sans cadre, avec ou sans passe-partout, descriptions textuelles et champs numériques). Elles doivent donc « corriger » leurs données avant de les exposer au monde entier. Être ouvert implique interopérabilité. Plusieurs institutions ont déjà accompli ces efforts : les bases de données de notices d'autorité comme VIAF collaborent déjà avec Wikidata ; le Museum of Modern Art (MoMa) utilise déjà les données de Wikidata. En Catalogne, l'université de Barcelone, en collaboration avec Amical Wikimedia, soutient un projet novateur qui vise à rien de moins que de créer une base de données ouverte de toutes les œuvres appartenant au modernisme catalan.

Les données ne sont pas connaissance. Les données ne sont pas objectives.
Pierre de Rosette

Les données ne sont pas en elles-mêmes connaissance. Elles sont de l'information. Avec l'arrivée d'un écosystème de données gratuit et densément « peuplé », que tout le monde peut consulter, nous pourrions être amené à rendre trop simple le monde : une description, peu importe les détails, ne nous permettra peut-être pas de comprendre quelque chose. Apprendre que Dostoïevski est né en 1821, est mort en 1881 et appartient à l'école existentialiste n'est pas synonyme de connaître Dostoïevski ou l'existentialisme. Plus que jamais, nous avons besoin d'outils pour contextualiser les informations, pour créer un point de vue et pour créer un savoir en s'appuyant sur ces informations, cela dans le but de favoriser une société animée par un solide esprit critique. Nous ne devons pas oublier que les données ne sont pas objectives ou neutres, même si elles nous présentées comme telles. La sélection des données est un biais en soi-même. La décision de reconnaître le sexe, l'origine ethnique, la religion, la grandeur, la couleur des yeux, l'orientation politique ou la nationalité peut influer sur l'analyse postérieure. La décision d'inscrire ou pas une information dans un ensemble de données peut à la fois informer de et masquer une réalité. Les données sont donc inutiles sans interprétation.

Les conséquences de l'arrivée de la Wikipédia sur les encyclopédies traditionnelles, imprimées, sont largement connues. Quel sera l'influence de Wikidata ? Créé et maintenu en tant que wiki, son développement est assuré grâce à une collaboration qui se poursuit. Nous pouvons tous participer à la création et à la maintenance de son contenu, à son jargon également, aux propriétés des éléments et à la taxonomie de classification de l'information. Nous décidons la façon d'organiser l'information actuelle sur le monde ; nous le faisons de manière ouverte et en collaboration, ce qui démontre le potentiel de la technologie wiki. Nous savons que la connaissance humaine évolue en ajoutant de l'information et que la culture occidentale s'appuie pour l'essentiel sur un héritage historique. Notre réalité est déterminée, d'une certaine façon, par les avancées technologiques, sociales, politiques et philosophiques de nos ancêtres. Par exemple, la génération actuelle n'a pas besoin de découvrir à nouveau les principes de l'électricité. Nous profitons donc des efforts consentis par nos ancêtres. Grâce à Internet, nous pouvons participer à un événement qui marquera le cours de l'histoire humaine : nous définissons et créons un nouvel écosystème d'information qui pourrait devenir le socle d'une prochaine révolution cognitive. Nous avons la chance d'y participer, tout comme de questionner et d'améliorer son évolution. Ensemble, nous pouvons collaborer à un projet historique à l'égal des autres grandes avancées de l'humanité. Nous pouvons créer une nouvelle pierre de Rosette qui servira de clé ouverte et transparente pour découvrir les secrets de notre monde moderne et, peut-être, comme source documentaire des futures générations ou civilisations. Soyons-en responsables.

Vers quel Wikidata ?

Parlons de Wikidata.

À la fin du mois d'octobre 2015,
  • En rouge, le nombre de déclarations qui ont une source externe à l'écosystème Wikimedia (environ 15 millions).
  • En bleu, le nombre de déclarations dont la source est une Wikipédia linguistique (environ 20 millions).
  • En jaune, le nombre de déclarations sans source (environ 35 millions).
Pour une mise à jour plus récente, consultez https://tools.wmflabs.org/wikidata-todo/stats.php.

Selon un op-ed publié récemment dans le Signpost de la Wikipédia en anglais, Wikidata est motif de réjouissances à cause des possibilités qu'il offre. Il présente des caractéristiques qui le distinguent des autres wikis de l'écosystème Wikimedia :

  • Un peu moins de la moitié de ses données n'a aucune source.
  • Parmi les données avec une source, plus de la moitié provient d'une Wikipédia linguistique (en anglais, en latin, etc.).
  • Les données de Wikidata qui renvoient à une Wikipédia linguistique citent un article, pas une version précise de l'article, d'autres sources indiquent seulement la Wikipédia en allemand, la Wikipédia en russe, etc.
  • Wikidata publie sous CC0, une licence qui n'exige pas d'indiquer la source ; donc, les tierces parties peuvent réutiliser son contenu sans indiquer la provenance, masquant ainsi le fait que ces données sont issues d'un site maintenu par une communauté d'internautes, site soumis à différentes réglementations.
  • les canulars supprimés de la Wikipédia en anglais poursuivent leur existence sur Wikidata.

Nous examinerons la situation et proposerons des actions correctrices.

Mais avant de procéder...

Un peu d'histoire

Wikidata est l'un des plus récents projets de l'écosystème Wikimedia. Lancé en 2012, son développement se réalise sous l'égide du chapter allemand Wikimedia Deutschland (et non pas de la Wikimedia Foundation).

La mise de fonds de 1,3 million d'euros provient de trois donateurs :

  • Une moitié de l’Institute for Artificial Intelligence (AI2) de Paul Allen, l'un des fondateurs de Microsoft.
  • Un quart de Google, Inc.
  • L'autre quart de la Gordon and Betty Moore Foundation, établie par l'un des fondateurs d'Intel, Gordon Earle Moore, et sa femme, Betty I. Moore.

La première équipe logicielle était dirigée par Denny Vrandečić (en:User:Denny), un membre de Wikimedia Deutschland et ancien salarié de l'Institut de technologie de Karlsruhe (KIT). Denny Vrandečić et Markus Krötzsch (un ancien de KIT et de l'université d'Oxford, aujourd'hui à l'université technique de Dresde) ont créé Semantic MediaWiki, « qui permet d'ajouter des annotations sémantiques aux pages d'un wiki ». Depuis 2013, Vrandečić est salarié de Google. Depuis l'été 2015, il est également l'un des trois membres élus par la communauté du Board of trustees de la Wikimedia Foundation.

Paul Allen, co-fondateur de Microsoft, a versé la moitié du montant nécessaire au développement de Wikidata par le biais de son Institute for Artificial Intelligence.

Dans un communiqué de presse du 30 mars 2012, Wikimedia Deutschland écrit :

« Wikidata publiera une base de données, construite en collaboration, qui enrichira la connaissance du monde. Son but premier est de soutenir les 280 Wikipédias linguistiques grâce à une source commune de données structurées qui peuvent être reprises dans n'importe lequel des articles de l'encyclopédie libre. Par exemple, grâce à Wikidata, la date de naissance d'une personne notable peut être reprise dans toutes les Wikipédias et il suffit qu'elle soit à jour en un seul endroit. De plus, comme toute autre information de Wikidata, cette date de naissance peut être réutilisée n'importe où hors de Wikipédia. Nous croyons que le principe d'une source commune, qui sous-tend Wikidata, apportera une plus grande cohérence et une meilleure qualité dans les articles des Wikipédias ; les plus petites Wikipédias linguistiques pourront, grâce à Wikidata, diffuser plus facilement leurs informations. En même temps, Wikidata réduira les efforts de maintenance des dizaines de milliers de bénévoles œuvrant dans Wikipédia.

Le PDG de Wikimedia Deutschland, Pavel Richter, souligne le caractère pionnier de Wikidata : « C'est révolutionnaire. Wikidata est le plus grand projet technique jamais lancé par l'un des 40 chapters internationaux. Wikimedia Deutschland est enthousiasmé par ce projet et dévoué à l'amélioration de la gestion des données de la plus grande encyclopédies du monde. »

En plus des projets Wikimedia, les données devraient faciliter l'élaboration de nombreuses applications externes, particulièrement pour annoter et relier les données, qu'elles soient scientifiques, du e-gouvernement ou d'autres domaines. Les données seront publiées sous un licence libre Creative Commons. »

Wikidata poursuit donc deux objectifs : il sert à faciliter la maintenance des Wikipédias linguistiques et sert de guichet unique de données pour les tierces parties.

Pour s'assurer que les données soient ré-utilisées au maximum, Wikidata, au contraire de Wikipédia, est publiée sous CC0 1.0, une licence qui autorise le « titulaire de droits d’auteur de renoncer au maximum à ceux-ci dans la limite des lois applicables, afin de placer son œuvre au plus près du domaine public ». Elle autorise tout utilisateur des données Wikidata de ne pas indiquer la provenance des données.

Wikidata est donc radicalement différente de Wikipédia, publiée sous CC BY-SA 3.0, une licence exigeant que les contenus repris de Wikipédia soient proprement crédités (clause BY) et que la distribution et l'adaptation de copies soient publiées sous une même licence (clause SA).

Les moteurs de recherche adoptent un nouveau rôle en tant que fournisseurs d'informations
Google a versé le quart de la mise de fonds initiale pour le développement logiciel de Wikidata, qui remplace dorénavant Freebase comme l'une des sources de Knowledge Graph de Google.

Six semaines après l'annonce du 30 mars, Google annonce la création d'un nouveau service ambitieux : Knowledge Graph. Un projet similaire est aussi apparu chez Bing. Ces deux plus importants moteurs de recherche, insatisfaits de seulement fournir des listes de liens vers des fournisseurs d'informations, déclarent ainsi vouloir joindre le rang des fournisseurs d'informations.

Selon Google, Knowledge Graph permettra aux internautes :

« de rechercher des choses, des personnes ou des endroits que Google connaît — monuments, personnalités, villes, équipes sportives, bâtiments, caractéristiques géographiques, films, objets célestes, œuvres artistiques et plus — et d'obtenir en un instant de l'information pertinente. C'est un premier pas vers la construction de la prochaine génération de recherches en ligne, qui s'abreuvera à l'intelligence collective du Web et comprendra le monde un peu plus comme les gens.

Knowledge Graph ne tire pas ses informations que de sources publiques comme Freebase, Wikipédia et le CIA World Factbook. Il est amélioré, par une large marge, parce que nous visons inlassablement des recherches utiles, à la fois larges et profondes. Présentement, il comprend plus de 500 millions d'objets, ainsi que plus de 3,5 milliards de données sur et de relations entre ces différents objets. Il s'accorde à la fois avec les recherches des internautes et les contenus du Web. »

Cette décision est commercialement valable : en essayant de deviner les informations qui intéressent les internautes et en les publiant dans leurs pages, les moteurs de recherche invitent les internautes à demeurer plus longtemps sur leurs sites, ce qui peut les amener à cliquer sur une publicité — un clic qui ajoutera aux revenus des moteurs de recherche (pour Google, le revenu quotidien est d'environ 200 million US$).

Par ailleurs, si une infobox de Knowledge Graph n'apparaît pas dans la page des résultats de recherche, elle est remplacée par une publicité à l'endroit où se trouve habituellement l'infobox (à la droite de la page). Knowledge Graph entraîne donc les internautes à diriger leur regard vers l'endroit où s'affichent les résultats qui génèrent les revenus des exploitants. Parfois, des publicités se retrouvent dans les infobox.

Le moteur de recherche Bing poursuit des buts similaires à Google en exploitant les informations des sites de l'écosystème Wikimedia.

Bing, le moteur de recherche de Microsoft, emprunte une voie de développement similaire à Google depuis 2012 : Snapshot, soutenu par l'application Satori, ressemble beaucoup par son apparence et son contenu à Knowledge Graph. Bing exploite en effet les mêmes sources de données que Google, particulièrement Wikipédia et Freebase, une base de données construite par production participative et publiée sous CC SA que Google a achetée en 2010.

Ni Freebase ni Wikipedia n'ont tiré avantage de cette acquisition. Wikipédia a observé une diminution notable de nombre de pages vues, attribuée le plus souvent à Knowledge Graph, ce qui a causé des soucis chez les organisateurs des levées de fonds pour les projets Wikimedia et parmi ceux qui souhaitent attirer de nouveaux contributeurs. En effet, si un internaute ne navigue pas à une page de Wikipédia, préférant arrêter sa recherche sur une page de Google, il ne verra pas les bannières qui rappellent de donner et du caractère participatif du site.

En décembre 2014, soit quatre ans après son acquisition, Google annonce qu'il ferme la base de données, préférant se tourner vers Wikidata qui publie sous une licence plus permissive que Freebase (qui exige de publier sous CC BY).

Les experts en RP et en SEO s'invitent

Freebase a régulièrement été perçue comme un maillon faible dans la chaîne d'approvisionnement des informations destinées à Knowledge Graph. Des observateurs ont écrit que des spécialistes en optimisation pour les moteurs de recherche [NdT : que je dénoterai par SEO dans la suite, abréviation de Search Engine Optimization] peuvent sensiblement modifier les contenus de Knowledge Graph en modifiant Freebase.

Lors d'une session d'échanges, Denny Vrandečić, futur administrateur de la Wikimedia Foundation, utilisant au choix son rôle de salarié de Google ou de meneur intellectuel du projet Wikidata, a discuté du passage de Freebase à Wikidata chez Google, expliquant que le rôle de Wikidata serait un peu différent de celui de Freebase :

Denny Vrandečić, co-fondateur du projet Semantic MediaWiki, doit jongler avec trois chapeaux : il est salarié de Google, membre élu du Board of Trustees de la Wikimedia Foundation et premier meneur intellectuel de Wikidata.
16:31:17 <dennyvrandecic> Google a décidé que nous devions migrer autant de données que possible de Freebase à Wikidata

16:31:34 <dennyvrandecic> et nous travaillons sans relâche sur plusieurs aspects [du programme] pour atteindre ce but

16:31:48 <benestar> déjà une question : combien de bénévoles de Freebase participeront à Wikidata?

16:32:02 <sjoerddebruin> Des gens ont déjà rejoint le projet.

16:32:11 <dennyvrandecic> benestar: difficile à calculer, mais nous de Freebase n'avons jamais approché les nombres dont Wikidata jouit

16:32:14 <sjoerddebruin> Surtout des fâcheux en SEO ou conception Web

16:32:45 <dennyvrandecic> benestar: ils n'influenceront même pas le nombre de contributeurs de Wikidata

16:33:05 <benestar> Donc, les serveurs ne vont pas exploser :D

16:33:16 <dennyvrandecic> Non, pas vraiment

16:33:26 <dennyvrandecic> Hmm, le souci est que des SEO pensent que Wikidata remplace Freebase dans l'infrastructure de Google

16:33:35 <benestar> nous avons besoin de règles Wikidata pour les SEO

16:33:42 <dennyvrandecic> oui, ça serait bien

16:33:45 <benestar> les sociétés s'établiront et modifieront beaucoup Wikidata

16:33:55 <sjoerddebruin> On observe déjà une grande quantité de spam dus aux sociétés et aux « experts en SEO »

16:33:55 <dennyvrandecic> De plus, Wikidata n'est pas un billet gratuit vers Knowledge Graph, comme Freebase l'a été

16:34:07 <dennyvrandecic> C'est une source parmi d'autres

16:34:27 <Lydia_WMDE> Je crois que nous devons le souligner

16:34:30 <dennyvrandecic> benestar: À mon avis, je pense que les sociétés qui contribuent à Wikidata pourraient s'avérer largement bénéficiaires

Noam Shapiro, dans un article de Search Engine Journal, tire des conclusions après avoir parcouru cet échange, insistant sur les passages surlignées plus haut :

1. Les experts en RP et en SEO s'invitent : il est largement connu que les professionnels en SEO et beaucoup de salariés de sociétés de relations publiques se sont récemment découverts un intérêt pour Wikidata.

2. Les sentiments contradictoires pour Wikidata : les penseurs de Wikidata sont inquiets à propos de l'arrivée de nouveaux contributeurs, mais ils sont partagés à savoir si c'est un développement positif ou négatif.

3. Ni spam ni biais autorisés : prière de noter que des contributeurs pourraient rechercher des spam ou des modifications biaisées. Assurez-vous que chaque modification soit la plus factuelle et la moins biaisée possible. À cause de l'approche pro-données de Wikidata et de l'exigence de références valables, la plupart des modifications devraient l'être, mais soyez vigilants !

4. Il n'y a plus de billet gratuit : comme le souligne l'un des locuteurs plus haut, « De plus, Wikidata n'est pas un billet gratuit vers Knowledge Graph, comme Freebase l'a été. » Il est fort possible que le lien direct observé entre Freebase et Knowledge Graph ne sera pas reproduit dans la relation entre Wikidata et Knowledge Graph. Ceci écrit, ce n'est qu'« une source parmi d'autres », mais probablement importante. En effet, Knowledge Graph prospère en s'appuyant sur des données structurées et, particulièrement en l'absence de Freebase, c'est exactement ce que Wikidata fournit.

[…] Wikidata compte. D'une façon ou d'une autre, Wikidata sera une source pour Knowledge Graph. De plus, prendre le contrôle de votre marque n'a jamais été aussi important ! Rendre optimale votre marque dans Wikidata devient de plus en plus essentiel pour assurer votre présence en ligne ; c'est donc fortement conseillé.

Le point de Shapiro sur le spam et les contributions biaisées comprend le passage « l'exigence de références valables ». C'est un sujet que nous aborderons bientôt, parce que Wikidata semble adopter une approche très laxiste à cet égard.

La relation entre Wikidata et Wikipédia : des sources ? Quelles sources ?

Wikidata et Wikipédia ont recours à des licences probablement incompatibles, lesquelles ont été le sujet de plusieurs discussions à l'intérieur de la communauté wikimédienne. Déjà en 2012, Denny Vrandečić écrit sur Meta-Wiki :

« Alexrk2, c'est vrai que Wikidata sous CC0 ne pourrait importer du contenu publié sous une licence partage à l'identique. Wikidata n'a aucune intention d'extraire du contenu de Wikipédia. Wikidata va publier du contenu que les Wikipédias pourront reprendre. Une source CC0 peut être utilisée dans un projet partage à l'identique, que ce soit Wikipédia ou OSM, mais pas dans l'autre sens. Nous sommes d'accord ? --Denny Vrandečić (WMDE) (talk) 12:39, 4 juillet 2012 (UTC) »

Plus récemment, puisque les faits ne peuvent tomber sous le coup du copyright, les extractions massives de Wikipédia sont autorisées. Aux États-Unis et en Europe, l'état de la situation juridique des droits relatifs aux bases de données est, pour le moins, complexe. Peu importe les scrupules que Denny exprimaient à l'époque sur les licences, ils semblent choses du passé. Si le plan initial était « aucune intention d'extraire du contenu de Wikipédia », il a changé.

Les bots qui extraient des informations de Wikipédia ont régulièrement été à l'ordre du jour. Dans les derniers mois, des contributeurs de Wikidata ont régulièrement tiré la sonnette d'alarme sur les importations massives des différentes Wikipédias linguistiques, croyant que ces imports compromettent la qualité :

J'ai récemment parcouru une discussion dans Wikipédia que j'ai découverte par hasard en suivant un lien de :
Wikidata:Project_chat/Archive/2015/10#STOP_with_bot_import

[…] Dans le but d'apporter une perspective extérieure en tant que wikipédien (et comme contributeur potentiel de WD dans le futur), j'approuve sans réserve les propos de Snipre ; dans les faits, nous ne contrôlons plus les bots. Les importations sans surveillance des données/informations des Wikipédias est l'une des raisons pour lesquelles des wikipédiens cultivent une attitude hostile envers WD et son usage dans les Wikipédias. Si WD est amené à servir d'entrepôt central pour les projets Wikimedia et Wikipédia en particulier (comme Wikimedia Commons), alors la qualité doit primer sur la quantité. Un entrepôt central doit maintenir des standards plus élevés que les projets qui utilisent son contenu, parce qu'une seule erreur dans ses données se propage à tous les projets qui les reprend, ce qui mène à toutes sortes de problèmes. Faisons une comparaison boiteuse. Pensez à un virus informatique installé dans un serveur central plutôt que dans un seul ordinateur. Les conséquences sont nettement plus sévères et aucune personne sensée ne fera tourner le serveur avec moins de protection/restrictions qu'un ordinateur.

Par ailleurs, si vous pensez que les utilisateurs des autres projets Wikimedia, tel que Wikipédia, ou de tierces parties feront de la maintenance des données quand ils commenceront à utiliser WD, ils seront réticents s'ils découvrent que trop peu d'efforts ont été consentis à la qualité ; ils préféreront rejeter WD de leurs projets.

De façon générale, tous les avantages d'un entrepôt de données central s'appuient sur la qualité (fiabilité) des données. Si elle n'est pas présente à un niveau élevé, il n'y a aucune raison de maintenir un entrepôt de données central. Toutes les applications, mêmes superbes, deviennent inutiles si elles recourent à de fausses données. --Kmhkmh (talk) 12:00, 19 novembre 2015 (UTC)
La boucle des sources relie Wikidata et Wikipédia.

La conséquence des importations automatiques est que Wikipédia est présentement la source la plus souvent citée dans Wikidata.

Selon les statistiques Wikimedia courantes :

  • La moitié des déclarations de Wikidata n'ont aucune source.
  • Près du tiers de toutes les déclarations de Wikidata ont seulement Wikipédia comme source.

Les références à Wikipedia n'indiquent pas la version précise d'un article ; elles indiquent seulement la langue de la Wikipédia. Ceci inclut les langues moins courantes dont le système de références est assurément loin de la maturité de la Wikipédia en anglais. De plus, quelques Wikipédias linguistiques, notamment celles en croate et en kazakh, ne sont pas seulement moins matures mais aussi réputées pour publier des contenus politiquement manipulés.

Plus haut, Shapiro espère que le spam et les modifications biaisées seront contrôlées à cause de l'« exigence de références valables ». Le système de contrôle actuel de Wikidata ne peut que nous amener à conclure autre chose.

Bien sûr, il faut accepter que des déclarations de Wikidata n'exigent aucune source. Par exemple, dans l'entrée Wikidata de George Bernard Shaw, la déclaration « prénom : George » est évidente et n'exige pas une source. Quelques uns iront jusqu'à affirmer que Wikidata n'aura jamais besoin d'être sourcé à 100 %.

Cependant, il n'est pas sain que Wikipédia soit citée plus souvent dans Wikidata que toutes les autres sources ensemble. C'est d'autant plus important que Wikidata peut transmettre des erreurs non seulement à Wikipédia, mais aussi à Knowledge Graph de Google, Snapshot de Bing et bien d'autres tierces parties. Wikidata devient alors une source fiable de Wikipédia, ce qui complète la boucle de citogenesis [NdT : un néologisme de langue anglaise formé à partir du mot anglais cite (verbe citer) et du mot latin genesis (genèse). Le préfixe grec cito- (pour cavité, cellule) joue peut-être un rôle. On pourrait donc définir citogenesis par « création de citations à partir du vide, de rien »].

Les données ne sont pas vérité ; elles sont parfois fantômes
Citogenesis

Lorsque Wikipédia est devenue immensément populaire, la citogenesis a étendue son ombre sur l'interaction des « sources fiables » et Wikipédia. Un article paru en mai 2014 dans le journal The New Yorker illustre le problème :

« En juillet 2008, Dylan Breves, un étudiant de 17 ans de New York, apporte une modification banale à l'entrée en:Coati. Le coati, membre de la famille des ratons-laveurs, est « aussi connu comme… un aardvark brésilien » écrit Breves. Il ne cite aucune source pour ce surnom, avec raison : c'est son invention. Lui et son frère, lors d'un voyage, ont aperçu plusieurs coatis à proximité des chutes d'Iguazú au Brésil et les ont confondus avec d'authentiques aardvark.

« Je n'aime pas faire des erreurs », m'explique Breves. « Donc, en tant que blague, j'ai introduit « aussi connu comme… un aardvark brésilien » et puis j'ai oublié pendant un temps. »

Ajouter une petite blague à une page publique de Wikipédia appartient à la catégorie des vandalismes sans importance qui apparaissent régulièrement dans le site web collaboratif. Quand Breves a modifié l'article, il a pensé que quelqu'un remarquerait le manque de source et exigerait que le passage soit supprimé.

Cependant, le temps passant, une bizarrerie est apparue : le surnom est resté. Environ un an plus tard, Breves recherche l'expression « aardvark brésilien ». Non seulement l'expression est dans la Wikipédia en anglais, mais elle apparaît dans des centaines de sites sur les coatis. Des mentions du « aardvark brésilien » sont depuis apparues dans les journaux The Independent et Daily Mail, tout comme dans un livre publié par l'université de Chicago. Le rôle de Breves est évident. Une recherche de Google pour « aardvark brésilien » ne retourne aucune mention de l'expression avant que Breves n'apporte le changement en juillet 2008. L'affirmation que le coati est aussi connu comme un aardvark brésilien est encore dans l'article, il cite un article de 2010 du journal The Telegraph comme source. »

Il est probable que ces mensonges se retrouveront dans Wikidata, lequel infectera à son tour les Wikipédias et les sites tiers. Ce n'est pas hypothétique, c'est déjà le cas et facile à démontrer. [NdT : l'auteur mentionne ensuite six canulars de la Wikipédia en anglais qui se sont propagés dans Wikidata. Ils ont été supprimés. Il mentionne également un canular qui s'est propagé jusqu'à Knowledge Graph de Google et Snapshot de Bing, le rendant plus crédible.]

La seule façon pour Wikidata d'empêcher ce problème, c'est d'appliquer des critères de qualité sévères, ce que suggère Kmhkmh plus haut. Ces critères semblent absents à l'heure actuelle dans Wikidata, puisque le site a dit au monde entier, pendant cinq mois en 2014, que Franklin D. Roosevelt était aussi connu sous le nom d'« Adolf Hitler ». Si un vandalisme aussi évident peut durer presque une demie année dans Wikidata, quelles sont les chances que des manipulations ou des mensonges plus subtils soient détectées avant qu'ils ne se propagent à d'autres sites ?

Pourtant, des wikimédiens comme Max Klein, qui travaille sur Wikidata depuis ses débuts, caressent l'idée que ce projet devienne « la seule autorité qui contrôlera toutes les autres ». Lors d'une entrevue de 2014, Max Klein a répondu à des questions :

« D'où provenaient les premières données de Wikidata ?

Dans les premiers temps de Wikidata, nous le surnommions « botpedia » parce que ce n'était qu'une chambre d'écho où les bots ne communiquaient qu'entre eux. Les gens programmaient des bots dans le but d'importer des informations de Wikipédia. Nous nous concentrions surtout sur les données personnelles provenant des fichiers d'autorité.

Fichiers d'autorité ?

Un fichier d'autorité, terme utilisé en science de l'information, sert à identifier une personne grâce à un identifiant unique. Le but est d'éviter le problème « Quel Jean Dupont ? ». Lors de Wikimania de l'an passé, j'ai affirmé que Wikidata est devenu une « supra autorité » parce qu'elle est reliée à des autorités de beaucoup d'organisations (par exemple, la bibliothèque du Congrès, IMDb). Dans le futur, j'imagine que Wikidata sera la seule autorité qui contrôlera toutes les autres. »

Connaissant les critères de qualité actuels, un scénario cauchemardesque se dessine : l'équivalent de la tour de Babel, mais dans Internet.

Qu'est-ce qu'une source fiable ?
Un aardvark

Un projet collaboratif comme Wikidata devenant « la seule autorité qui contrôlera toutes les autres » diffère sensiblement de la vision qui anime Wikipédia. Les wikipédiens, très sensibles aux vulnérabilités et limitations du projet, n'ont jamais perçu Wikipédia comme une source fiable. Par exemple, une règle établie par la communauté interdit qu'un article de Wikipédia cite un autre article comme source :

« Le contenu d'un article de Wikipédia n'est jugé fiable à moins qu'il ne cite des sources fiables. Une fois que vous avez vérifié que c'est le cas, utilisez-les dans l'article. »

Wikidata renonce à ce principe, doublement. Premièrement, il importe des données seulement sourcées dans Wikipédia, qualifiant l'encyclopédie de source fiable, ce que Wikipédia s'interdit. Deuxièmement, elle aspire à devenir une source fiable et ultime, suffisamment fiable pour elle-même informer toutes les autres autorités.

Par exemple, Wikidata sert de source à VIAF, cette dernière étant elle-même une source pour Wikidata. Selon un wikimédien d'expérience et bibliothécaire de son état, auquel j'ai parlé lors d'une récente Wikiconference USA 2015, l'aspect évidemment circulaire de cette entente va seulement mener à des embrouillages qui, au contraire du canular du aardvark brésilien, deviendront impossibles à dénouer plus tard.

Les conséquences d'une licence qui n'exige pas la reconnaissance de la paternité
Pas un aardvark

Le manque de sources dans Wikidata rend la vérification des contenus impossibles. Cette carence est amplifiée par la fait que la licence CC0 invite les tierces parties à utiliser les contenus de Wikidata sans indiquer la paternité.

Dans une entrevue donnée juste après Wikimania 2014, Max Klein fournit un aperçu perspicace à ce sujet :

« Wikidata publie sous une licence CC0, moins restrictive que la licence CC BY-SA que Wikipédia applique. Quelles sont donc les conséquences de cette décision sur les autres parties, tel Google qui utilise les données de Wikidata dans les projets comme Knowledge Graph ?

Le fait que Wikidata soit CC0 m'a paru en premier révolutionnaire. Un aspect que j'ai observé est que, de plus en plus, Google retire la mention de Wikipédia dans ses info-cards, l'attribution va disparaître. Superficiellement, ça semble sans conséquence, jusqu'à ce que vous constatiez que Google est l'un des donateurs du projet Wikidata. Donc, d'une certaine façon, vous pouvez penser que la société a payé pour effacer une marque sur l'omniscience qu'on lui prête.

Pour réduire mon pessimisme, j'essaie de me souvenir que si nous croyons vraiment au mouvement open source et au slogan open data, alors cette marée montante soulève tous les navires. »

Klein semble déchiré entre son évaluation à la fois lucide et rationnelle et le désir de croire « vraiment au mouvement open source et au slogan open data ». La foi peut prendre une place légitime dans l'amour et les profondeurs de l'âme humaine, mais nos ancêtres ont appris dans les siècles passé que lorsque vous examinez l'univers des faits, la croyance ne mène pas à la connaissance : la connaissance vient grâce aux doutes et aux vérifications.

En pratique, cette omission de l'attribution implique que le lecteur n'aura aucune idée que les données qui lui sont présentées proviennent d'un projet qui publie en se dégageant de toutes responsabilités en termes forts et explicites. Voici quelques passages de l'avertissement de Wikidata :

« Wikidata ne garantit pas la validité [...] des informations contenues sur son site [...]

Pas de relecture formelle par des pairs [...] Wikidata n’a pas de rédacteur en chef ni de comité de rédaction qui vérifie le contenu avant publication. Notre communauté active de contributeurs utilise des outils comme la liste des modifications récentes ou la liste des nouvelles pages pour suivre les changements et ajouts de contenu. Cependant, Wikidata n'est pas uniformément relue par des comités de lecture. N'importe quel lecteur peut corriger des erreurs ou se livrer à une relecture formelle, mais ces lecteurs n'ont aucune obligation juridique de le faire, et donc toutes les informations lues ici sont sans aucune garantie de fiabilité à toute fin ou utilisation que ce soit.

Aucun des contributeurs, administrateurs, ou autre personne liée à Wikidata de quelque manière que ce soit, ne peut être tenu pour responsable de l’apparition de toute information inexacte ou diffamatoire ou de votre utilisation de l’information contenue ou lié à ces pages Web. »

Les internautes croiront ce qu'affirment Google et Bing. On nous dit que c'est le Siècle des Lumières, mais ça ressemble plutôt au retour de l'Âge sombre.

Quand une seule réponse est fausse

Cet obscurcissement de la provenance des données amène d'autres effets indésirables. Un article publié par Slate le 30 novembre 2015 discute d'une étude produite par Mark Graham, de l'Oxford Internet Institute et par Heather Ford, de la School of Media and Communication de l'université de Leeds. L'étude se penche sur les problèmes créés lorsque Wikidata ou Knowledge Graph publient une seule réponse, sans attribution.

Ford et Graham expliquent qu'ils ont découvert plusieurs cas où le contenu de Knowledge Graph prend parti dans la présentation d’événements politiquement controversés. Par exemple, Knowledge Graph présente Jérusalem comme la « capitale d'Israël ». La plupart des Israéliens disent que c'est le cas, mais des alliés ne le pensent pas (Les Palestiniens, eux, disent que la ville est leur capitale). Ces divergences sont expliquées dans le résumé introductif de en:Jerusalem : « La communauté internationale ne reconnaît pas Jérusalem comme capitale d'Israël ; la ville n'accueille aucune ambassade étrangère. » Graham ajoute d'autres exemples dans Slate :

« Une recherche de « Londonderry » (le nom utilisé par les unionistes) en Irlande du Nord est changé pour « Derry » (le nom utilisé par les nationalistes irlandais). Une recherche pour Abu Moussa indique qu'il s'agit d'une île iranienne dans le golfe Persique, ce qui contraste violemment avec la position arabe qui affirme que l'île appartient aux Émirats arabes unis et qu'elle fait partie du golfe Arabe. Cherchez pour Taipei et Google avance que c'est la capitale de Taïwan (un pays seulement reconnu par 21 pays membres de l'ONU). D'une façon similaire, le moteur de recherche qualifie la Chypre du Nord de pays, mais elle est seulement reconnue par un seul pays. Google indique que le Kosovo est un territoire, mais il est formellement reconnu comme pays par 112 pays.

Je ne veux pas dire que c'est vrai ou faux. Je veux seulement dire que la décision de se fier au Web des données et au Web sémantique implique que les choix sur la façon dont les lieux géographiques sont représentés relèvent de plus en plus de personnes et de procédures éloignées et invisibles des personnes qui vivent à l'ombre numérique de ces représentations. Les contestations sont centralisées et conçues comme des nœuds de données uniques qui ne donnent aucune voix aux citoyens de ces lieux, qui ne peuvent donc participer à la construction du savoir de leurs villes. »

Ford et Graham ont analysé les pages de discussion de Wikidata dans le but de comprendre comment se dégage le consensus. Ils ont découvert que des contributeurs se font la guerre et accusent les autres de manquer de neutralité. Les utilisateurs de Knowledge Graph sont pour la plupart ignorants de ces conflits.

Selon Ford et Graham, le déplacement des faits de Wikipédia à Wikidata, et donc à Knowledge Graph, amène « quatre effets fondamentaux » :

« a) les données perdent en nuance, b) leur provenance (ou source) est obscurcie, c) le pouvoir des utilisateurs de contester l'information est réduit et d) l'usage de filtre personnalisé implique que les utilisateurs ne peuvent comparer les données présentées aux différents utilisateurs et donc ne peuvent analyser les différences de présentation […]

Nous reconnaissons que les ingénieurs, les programmeurs, les bénévoles et les passionnés de technologies font au mieux de leurs connaissances dans des circonstances difficiles. Cependant, un effort doit être fourni par les personnes utilisant ces plateformes pour expliquer les décisions en ce qui concerne la représentation des données. Il peut s'agir de quelques lignes de code sans importance, sur un système quelque part, mais elles ont une incidence sur l'identité et le futur de personnes souvent éloignées des conversations que les ingénieurs tiennent. »

Quel renversement remarquable, puisque les projets Wikimedia ont souvent été salués pour avoir apporté la démocratisation du savoir.

Conclusion
N'importe quelle erreur peut être corrigée.

Selon mes observations, plusieurs wikimédiens pensent que les problèmes décrits ici sont mineurs. Ils se croient en sécurité parce qu'ils peuvent corriger n'importe quoi à l'instant, ce qui laisse croire qu'ils sont en contrôle. C'est un wiki ! Il se confortent dans leur position en pensant que quelqu'un se présentera un jour, dans le futur, et corrigera n'importe quelle erreur présente aujourd'hui.

C'est une erreur. Les wikimédiens font partie des quelques personnes qui comprennent les coulisses des wikis ; la très grande majorité des internautes ignore comment trouver une entrée dans Wikidata, encore moins comment la corriger. Dès qu'une personne cesse de penser égoïstement et pense en fonction des autres, la possibilité de corriger n'importe quelle erreur dans Wikidata ou Wikipédia devient secondaire face à la question : « À un instant donné, quelle quantité d'information est erronée dans nos projets et combien de personnes sont trompées par des contenus faux ou manipulés ? » Les mensonges ne sont pas sans conséquence.

Lorsque confrontés aux problèmes de qualité de Wikidata, des wikimédiens répliqueront que des bots astucieux, dans le futur, corrigeront les erreurs introduites par des bots moins intelligents. Ils envisagent les données erronées comme un défi logiciel à relever, plutôt que comme une démission envers les utilisateurs. Pour ma part, je penche pour plus d'emphase sur le contrôle futur de la qualité, sur la prévention des problèmes, plutôt que sur la correction des problèmes. Les déclarations de Wikidata devraient êtres sourcées par des sources fiables hors de l'écosystème Wikimedia, comme c'est fait dans Wikipédia, tel que préconisé par la recommandation de vérifiabilité.

Le développement de Wikidata a été soutenu grâce à l'argent versé par Google et Microsoft, qui poursuivent leurs intérêts commerciaux dans ce projet. Cette influence laisse penser que le contenu de Wikidata peut être lu par des milliards de personnes. Elle peut devenir un honeypot plus alléchant que Wikipédia chez les spécialistes en SEO et en relations publiques. Les faiblesses des wikis dans ces domaines sont bien connues. En fonction de l'importance que les moteurs de recherche prêteront à Wikidata et considérant la perte de nuance que démontre Knowledge Graph, une guerre d'édition gagnée dans un coin obscur de Wikidata peut, littéralement, redéfinir la vérité dans Internet.

Si l'information est le pouvoir, c'est le genre de pouvoir que plusieurs voudront s'approprier. Ils se rendront sûrement sur Wikidata, gonflant le nombre de contributeurs. C'est un scénario idéal pour accomplir une propagande. Comptes anonymes. Protection garantie de l'identité. Déni plausible. Aucune responsabilité légale. Importation et dissémination automatiques sans supervision humaine. Présentation par une autorité sans que le lecteur ne sache qui a inscrit l'information et en s'appuyant sur quelle source. Portée massive auprès du public.

... pour les gouverner tous

En tant que projet bénévole, Wikidata se doit de bien remplir son mandat. Des améliorations sont nécessaires. Toutefois, en regardant au-delà de l'horizon de l'écosystème Wikimedia, nous devrions nous questionner sur le besoin d'une autorité unique et mondiale, que ce soit Google ou Wikidata, « pour les gouverner tous ». De telles aspirations, même en agitant la magnifique bannière du « contenu gratuit », ont des inconvénients imprévisibles quand elles se réalisent, comme l'anneau de la romance qui a été forgé « pour les gouverner tous » mais qui a démontré, finalement, son pouvoir destructeur. Le droit de jouir d'un environnement médiatique pluraliste, occupé par des joueurs qui ont des comptes à rendre au public, a été durement acquis dans les siècles passés. Des pays ne profitent guère de cet exploit. Nous ne devrions pas le céder imprudemment, au nom du progrès, pour la plus grande gloire des technocrates.

Une dernière chose. Denny Vrandečić porte trois chapeaux : salarié de Google, membre élu du Board of Trustees de la Wikimedia Foundation et meneur intellectuel du projet Wikidata. Sachant l'importance financière de Knowledge Graph pour Google, un conflit d'intérêt est tout à fait possible en ce qui concerne la licence de Wikidata et sa croissance. Même si Google et Wikimedia forment aujourd'hui deux piliers de l'infrastructure informationnelle mondiale, les objectifs et les priorités d'une société multi-milliardaire qui dépend des revenus publicitaires pour dégager des bénéfices seront toujours différents de ceux d'une communauté de bénévoles qui collaborent gratuitement, pour le plaisir de partager la connaissance.

Discuter (les commentaires sont automatiquement inclus ici)
« Wikipédia est sans doute l'un des médias (au sens large) les plus indépendants grâce la décentralisation et distribution du pouvoir entre les contributeurs/trices, et cela se vérifie au quotidien [...] mais le grand public n'en est pas forcément conscient[2]. »
Jules78120
Rédigé/traduit par Cantons-de-l'Est, Gtaf, Ickx6, Simon Villeneuve et Trace.
Citations originales
Notes
Références
  1. À noter que Desnos n'entre pas dans le domaine public en France en raison de son statut de Mort pour la France
  2. Jules78120, Bulletin des administrateurs, Wikipédia en français, 12 janvier 2016