YaCy

YaCy
Description de l'image YaCy logo.png.
Description de cette image, également commentée ci-après
Page de recherche YaCy
Informations
Développé par Michael Peter Christen et les contributeurs au projet
Première version 2004[1]
Dernière version 1.924 ()
Dépôt github.com/yacy/yacy_search_serverVoir et modifier les données sur Wikidata
État du projet Actif
Écrit en Java
Environnement Multiplate-forme[2],[3]
Langues Multilingue
Type Moteur de recherche Internet pair à pair libre et gratuit[2],[4],[5],[6],[7]
Politique de distribution Gratuit
Licence Licence libre
(GNU GPL v2)
Site web yacy.net/fr

YaCy (pour Yet Another Cyberspace, homophone anglais de ya see (vous voyez)) est un moteur de recherche libre fonctionnant selon le principe d'un réseau pair à pair. Ce logiciel est développé en Java et était installé, fin 2006, sur des centaines d'ordinateurs appelés YaCy-peers ou postes-YaCy (600 actifs quotidiennement en [8]). YaCy est par exemple utilisé par l'Université Johannes Gutenberg de Mayence[9].

Un réseau YaCy est caractérisé par une architecture distribuée (non centralisée). Tous les nœuds (pairs) YaCy sont équivalents et il n'existe pas de serveur principal.

Sur chaque poste, YaCy tourne soit en mode robot d'indexation ou en mode proxy. Chaque poste-YaCy lance des robots d'indexation qui analysent les pages trouvées. Les résultats sont enregistrés dans une banque de données distribuée (index).

L'accès au moteur de recherche se fait par l'intermédiaire d'un serveur Web local qui présente un champ pour y introduire les mots clefs et fournit les résultats sous forme d'une page web habituelle.

Le projet YaCy a été fondé en 2003 par Michael Christen[10]. Le logiciel est délivré sous licence libre GNU GPL.

Le programme

Le cœur du moteur de recherche YaCy n'est pas, comme pour d'autres moteurs de recherche, un serveur central, mais un logiciel qui fonctionne sur presque tous les systèmes d'exploitation. La recherche s'effectue sur une page web locale, délivrée par le logiciel installé. L'affichage des résultats se présente également sous la forme d’une page web.

Un serveur proxy est couplé au système P2P : il est utilisable en option et indique automatiquement les pages visitées. Cette information n'est pas stockée par les sites visités, qui peuvent récupérer des informations supplémentaires via GET ou POST ou qui utilisent des cookies ou l'identification HTTP (par exemple pour les pages protégées par mot de passe)[11]. De cette manière, il est assuré que seules des données ouvertement accessibles à tous sont indiquées.

Fonctionnalités avancées

  • YaCy offre à tous les utilisateurs de l'option proxy la possibilité d'atteindre des postes sous le domaine PEERNAME.yacy respectivement PEERHASH.yacyh. L'utilisateur peut définir une page d'accueil sous www.PEERNAME.yacy; un système de partage de fichiers est accessible sous share.PEERNAME.yacy et l'interface habituelle sous PEERNAME.yacy. Il peut définir lui-même d'autres sous-domaines dans lesquels il crée un nouveau dossier avec le nom du sous-domaine. Il s'agit aussi d'une sorte de DNS dynamique.
  • YaCy offre également un espace pour une page d'accueil et pour l'échange de fichiers aux utilisateurs qui ne se servent pas de YaCy, indépendamment du .yacy-Domain. On peut le lier à l'adresse IP actuelle ou un nom de domaine dynamique.
  • YaCy possède une fonctionnalité qui sert à envoyer des messages texte (formatés en wikitexte) et, selon les réglages du récepteur, à envoyer des données.
  • YaCy intègre un wiki et un blog.
  • La gestion des marque-pages permet de créer des marque-pages privés ou visibles publiquement.
  • Il est possible de définir des listes noires pour des domaines particuliers.
  • Il existe une interface OpenSearch disponible sous http://<peer-address>:<peer-port>/opensearchdescription.xml, par exemple http://search.yacy.net/opensearchdescription.xml.

Architecture

Le moteur de recherche YaCy est fondé sur quatre éléments[12]:

Crawler
Un robot de recherche qui navigue de page web en page web en analysant leur contenu.
Indexer
Crée un index de mots inversé (RWI en anglais). Chaque mot dans l'index possède sa liste d'URLs pertinentes et des informations quant à leur ranking. Les mots sont hachés avant d'être stockés.
Interface Recherche et Administration
Conçue comme une interface web fournie par une servlet HTTP locale avec un conteneur de servlets.
Stockage des données
Stockage de la base de données de l'index de mots inversé en utilisant une table de hachage distribuée.

Caractéristiques techniques

Le programme est fondé sur un serveur web qui fonctionne comme un proxy-cache. L'interface utilisateur est accessible via le serveur web ; on peut y effectuer des recherches ou administrer son poste. Le proxy transmet son code au crawler, ce qui signifie que toutes les pages visitées non personnalisées sont automatiquement ajoutées à l'index. YaCy se sert d'Apache Solr depuis la version 1.04.9097. En outre, le réseau YaCy offre quelques domaines accessibles via le proxy.

Distribution de l'index

À la différence de lors de l'échange de données, les résultats d'un moteur de recherche P2P doivent être disponibles immédiatement. Afin de le garantir, YaCy utilise une table de hachage distribuée. Cela signifie que tous les mots et les URLs stockés sont envoyés aux postes dont la valeur de hachage va avec la valeur de hachage correspondante du mot ou de l'URL. Lors d'une recherche, cela se passe dans l'autre sens: on ne recherche que chez les postes qui peuvent, d'après l'URL, connaître leur valeur de hachage pour ce mot. Ainsi, seule une fraction des postes est contactée lors de la recherche, afin d'obtenir des résultats malgré tout satisfaisants.

Types de postes

YaCy différencie quatre types de postes:

Virgin
Un poste Virgin n'a aucun contact d'aucune sorte avec le réseau et n'est donc pas repérable. On est donc le seul à pouvoir savoir que son poste est Virgin.
Junior
Le poste est derrière un pare-feu. Les autres peuvent le voir en tant que poste Junior ou comme peer potentiel. Cependant, ils ne peuvent connaître que l'heure de sa dernière connexion et n'ont aucun moyen de savoir s'il est toujours en ligne.
Senior
Un poste Senior peut être atteint de l'extérieur et est un membre à part entière du réseau YaCy.
Principal
C'est un poste Senior qui de plus envoie une "seedlist" que les autres postes peuvent utiliser à des fins d'amorçage.

Protocole

Le protocole YaCy consiste en des servlets texte que le serveur web intégré met à disposition sous /yacy/servletname.html. Les autres postes lui transmettent des données via les paramètres GET: ils reçoivent en réponse un simple texte, dont le format exact diffère selon les servlets.

Amorçage

À l'amorçage, YaCy essaie de trouver d'autres postes du réseau. Pour cela, il cherche tout d'abord dans le fichier superseed.txt une seedlist à télécharger: les URLs de seedlists chargées par d'autres postes s'y trouvent. Puis il obtient via le fichier seeds.txt les références à d'autres postes, et ainsi le contact du réseau YaCy peut être entrepris. Au prochain démarrage, YaCy peut être amorcé par les seeds connues. Les seedlists sont alors utiles uniquement lorsque de nombreuses références ne sont plus correctes.

Avantages et inconvénients

Avantages

  • Les résultats des recherches ne peuvent pas être censurés ou biaisés pour des raisons publicitaires puisqu'il n'y a pas de serveur central.
  • Le moteur de recherche offre une plus grande fiabilité (du moins théoriquement) car une partie du réseau YaCy sera toujours accessible si certains postes ne fonctionnent pas.
  • Le logiciel est un logiciel libre et publié sous la licence publique générale GNU. Il est de plus gratuit.
  • Il n'y a pas d'annonces publicitaires gérées par un système centralisé puisque le moteur n'appartient pas à une entreprise.
  • De par sa conception, YaCy peut être utilisé afin d'indexer le « web caché », y compris Tor, I2P ou encore Freenet.
  • Il est possible d'atteindre un degré élevé de confidentialité.
  • Le protocole YaCy utilise des requêtes HTTP, préservant la transparence et l'accessibilité tout en aidant au diagnostic et à la recherche des sources de problèmes. À l'aide d'outils de compression tels que gzip, les performances peuvent être améliorées jusqu'à quasiment atteindre le niveau de celles des protocoles binaires (tels que TCP et UDP).
  • Soutien intégré pour OpenSearch.

Inconvénients

  • Lors d'une recherche, YaCy doit contacter d'autres postes et recharger la page d'accueil afin de bloquer le spam. Une recherche va donc prendre plus de temps qu'avec un moteur de recherche conventionnel.
  • Puisqu'il n'y a pas de serveur central et que le réseau YaCy est ouvert à tous, des postes malveillants seraient en principe capables d'introduire des résultats de recherche inexacts, commercialement biaisés ou du spam. Malgré cela, aucun résultat de recherche affiché chez l'utilisateur ne peut être "faux" en théorie puisque tous les résultats sont vérifiés en téléchargeant chaque page appartenant à l'ensemble des résultats et en vérifiant que les mots recherchés existent réellement dans la page. Cependant, YaCy utilise une chaîne User-Agent pour s'identifier, ce qui signifie qu'un serveur web pourrait renvoyer à un crawler YaCy un contenu différent de celui renvoyé à un visiteur normal.
  • Si seuls quelques postes sont accessibles, le nombre de résultats sera moindre que par le biais d'une recherche sur un gros moteur de recherche. L'arrêt ou la défaillance de quelques postes importants peuvent en outre mener à des perturbations plus importantes encore.
  • Pour des raisons de cache, les requêtes sont sauvegardées temporairement dans la RAM des postes dans lesquelles elles sont effectuées. La fonction de hachage utilisée pour coder les mots de la requête est avant tout utilisée pour gérer la table de hachage distribuée, et les mots-clés peuvent être découverts en partie à l'aide d'un dictionnaire afin de montrer les requêtes en clair.
  • Le protocole YaCy utilise des requêtes HTTP, or celles-ci peuvent être plus lentes que celles utilisées par des protocoles non-textuels (binaires) si elles ne sont pas compressées.
  • YaCy ne comprend aucune fonctionnalité de traversée de NAT, ce qui empêche le logiciel d'être utilisé à une échelle aussi large qu'il le pourrait, puisque la possibilité de configurer le routeur local, quand elle existe, requiert une certaine expertise pour fonctionner correctement.
  • Le classement des sites par pertinence est effectué du côté client (les utilisateurs sont encouragés à installer leur propre serveur YaCy, utiliser un serveur local étant nécessaire pour profiter au mieux des potentialités de YaCy). Les algorithmes de classement, bien qu'aisément personnalisables, ne voient pas leur charge de travail distribuée et sont limités à l'usage de l'index de mots de YaCy et à toute analyse qui pourrait être faite sur l'objet qu'on cherche à classer. C'est pourquoi des algorithmes de classement plus complexes, tels que ceux utilisés par Google et analysant le rang en fonction d'une variétés de facteurs contextuels développés durant le parcours du contenu, ne sont pour le moment pas réalisables avec YaCy, ce qui limite la possibilité pour la plupart des utilisateurs de trouver du contenu plus pertinent.

Notes et références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « YaCy » (voir la liste des auteurs).
(de) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en allemand intitulé « YaCy » (voir la liste des auteurs).
  1. (cs) [vidéo] Vizualizace vzniku spontánního řádu - spontaneous order evolution visualisation sur YouTube
  2. a et b Korben, « Yacy – Le moteur de recherche sans censure », Korben.info, (consulté le )
  3. (en) Michael Muchmore, « YaCy », PCMag.com, (consulté le )
  4. (en) FSFE Free Software Foundation Europe, « Web Search By The People, For The People: YaCy 1.0 », fsfe, (consulté le )
  5. (en) Katherine Noyes, « YaCy: It's About Freedom, Not Beating Google », PCWorld, (consulté le )
  6. Simon Robic, « Alternative à Google #2 : YaCy », Numerama.com, (consulté le )
  7. (de) « Tipps für den Umgang mit Suchmaschinen », Welt Online,‎ (lire en ligne, consulté le )
  8. « Web Search by the people, for the people - Decentralization » (consulté le )
  9. http://www.fsz.uni-mainz.de/48.php « Copie archivée » (version du sur Internet Archive)
  10. (de) « Heise online », sur heise online (consulté le ).
  11. (de) « De : Privacy », sur yacy-websearch.net via Wikiwix (consulté le ).
  12. (en) « YaCy Technology Architecture », YaCy.net (consulté le )

Voir aussi

Articles connexes

Moteurs de recherche en p2p

Autres

Liens externes

Read other articles:

vteSomali Civil War(2009–present) Timeline 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 Operations and battles 2009 S Mogadishu Mogadishu C Somalia Wabho Kismayo 2010 Beledweyne Ayn Kenyan border Mogadishu 2011 Lower Juba Gedo Elwaq Linda Nchi Deynile Beledweyne 2012 Yurkud Kismayo 2013 Bulo Marer 2014 Operation Indian Ocean Galgala 2015 Baure Leego Janale 2016 El Adde Qandala 2017 Kulbiyow Barii Af Urur Golweyn November 2017 2018 Bulo Marer Gandarshe 2020 Ca…

American politician Victor AndersonMember of the Georgia House of Representativesfrom the 10th districtIncumbentAssumed office January 11, 2021 Personal detailsBorn (1967-02-21) February 21, 1967 (age 57)Political partyRepublicanSpouseKimberly Victor E. Anderson (born February 21, 1967) is an American politician from Georgia. Anderson is a Republican member of Georgia House of Representatives for District 10.[1] References ^ Georgia General Assembly. vteMembers of th…

Racconti incompiutiTitolo originaleUnfinished Tales AutoreJ. R. R. Tolkien 1ª ed. originale1980 1ª ed. italiana1981 Genereracconti Sottogenerehigh fantasy Lingua originaleinglese Modifica dati su Wikidata · Manuale I Racconti incompiuti di Númenor e della Terra di Mezzo (o più sinteticamente Racconti incompiuti) sono una raccolta di racconti dello scrittore inglese J. R. R. Tolkien, pubblicata postuma nel 1980 dal figlio Christopher. Alcuni dei racconti della raccolta non sono propriam…

Valeria RossiValeria Rossi al Festivalbar 2001 Nazionalità Italia GenerePop Periodo di attività musicale2001 – in attività EtichettaBMG, EMI Music, Sony Publishing Album pubblicati3 Studio3 Sito ufficiale Modifica dati su Wikidata · Manuale Valeria Rossi (Tripoli, 7 marzo 1969) è una cantautrice italiana. Ha riscosso un grande successo nell'estate del 2001 con il tormentone Tre parole, brano noto anche fuori dai confini italiani. In seguito ha pubblicato due a…

South Korean academic organization This article relies excessively on references to primary sources. Please improve this article by adding secondary or tertiary sources. Find sources: National Academy of Sciences of the Republic of Korea – news · newspapers · books · scholar · JSTOR (April 2009) (Learn how and when to remove this message) National Academy of Sciences of the Republic of KoreaEstablished17 July 1954; 69 years ago (1954-07-…

此條目可能包含不适用或被曲解的引用资料,部分内容的准确性无法被证實。 (2023年1月5日)请协助校核其中的错误以改善这篇条目。详情请参见条目的讨论页。 各国相关 主題列表 索引 国内生产总值 石油储量 国防预算 武装部队(军事) 官方语言 人口統計 人口密度 生育率 出生率 死亡率 自杀率 谋杀率 失业率 储蓄率 识字率 出口额 进口额 煤产量 发电量 监禁率 死刑 国债 外…

Coordinate: 39°28′N 0°18.5′W / 39.466667°N 0.308333°W39.466667; -0.308333 32° America's Cup Competizione America's Cup Sport Vela Edizione XXXII Date 25 aprile - 3 luglio 2007 Luogo Porto dell'America's Cup, Valencia, Spagna Partecipanti Alinghi della Société Nautique de Genève (defender), Emirates Team New Zealand (challenger) Sito web http://32nd.americascup.com Risultati Vincitore Alinghi(2º titolo) Statistiche Gare 7 Cronologia della competizione XXXI XXXIII Manu…

ヨハネス12世 第130代 ローマ教皇 教皇就任 955年12月16日教皇離任 964年5月14日先代 アガペトゥス2世次代 レオ8世個人情報出生 937年スポレート公国(中部イタリア)スポレート死去 964年5月14日 教皇領、ローマ原国籍 スポレート公国親 父アルベリーコ2世(スポレート公)、母アルダその他のヨハネステンプレートを表示 ヨハネス12世(Ioannes XII、937年 - 964年5月14日)は、ロー…

Війська протиповітряної оборони сухопутних військ ЗС Російської Федерації Войска противовоздушной обороны сухопутных войск ВС Российской Федерации Велика емблема ППО СВ (з 2004 рг.)гісеНа службі з 1992 рокуКраїна  РосіяНалежність Збройні сили Російської ФедераціїТип Пр…

Radio station in Bellingham, Washington KGMIBellingham, WashingtonUnited StatesBroadcast areaWhatcom CountyFrequency790 kHzBranding790 - 96.5 KGMIProgrammingFormatNews/talkNetworkCBS News RadioAffiliationsCompass Media NetworksPremiere NetworksSalem Radio NetworkOwnershipOwnerSaga Communications(Saga Broadcasting, LLC)Sister stationsKAFE, KISM, KPUGHistoryFirst air date1926; 98 years ago (1926) (as KVOS, in Seattle; moved to Bellingham in 1927)Former call signsKVOS (1926–1962…

Order of sharks HexanchiformesTemporal range: Early Jurassic–Recent[1] PreꞒ Ꞓ O S D C P T J K Pg N Possible Permian record Broadnose sevengill shark (Notorynchus cepedianus) Frilled shark, (Chlamydoselachus anguineus) Scientific classification Domain: Eukaryota Kingdom: Animalia Phylum: Chordata Class: Chondrichthyes Subclass: Elasmobranchii Clade: Neoselachii Subdivision: Selachimorpha Superorder: Squalomorphii Order: HexanchiformesF. de Buen, 1926 Families †Paraorthacodontidae?…

Online education platform IBM SkillsBuildURLhttps://skillsbuild.org IBM SkillsBuild (previously, IBM Academic Initiative) is an American online educational website and initiative product of IBM established in 2005. It offers free digital training in STEM, computer study, cyber, information technology and other sciences through various courses. It hosts soft skills training courses as well.[1][2] It has partnership with several universities in US.[3] In October 2022 partne…

St. George's Hall, at the corner of Arch St. and 13th St. The Society of the Sons of St. George, established at Philadelphia for the advice and assistance of Englishmen in distress, was founded in Philadelphia, Pennsylvania, on Saint George's Day, April 23, 1772.[1][2] Earlier meetings were reportedly held at Tun Tavern. The society's charter in its act of incorporation approved by the Pennsylvania assembly on April 6, 1791,[3] states: To all to whom these presents shall …

American historian Barbara J. FieldsFields in 2013BornBarbara Jeanne Fields1947 (age 76–77)AwardsJohn H. Dunning Prize (1986)Lincoln Prize (1994)Academic backgroundAlma materHarvard University (BA)Yale University (PhD)Academic workInstitutionsColumbia UniversityNorthwestern UniversityUniversity of MichiganUniversity of Mississippi Barbara Jeanne Fields (born 1947) is an American historian. She is a professor of American history at Columbia University.[1] Her focus is on the hi…

Questa voce sull'argomento province della Turchia è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Provincia di BalıkesirprovinciaBalıkesir ili LocalizzazioneStato Turchia RegioneMarmara AmministrazioneCapoluogoBalıkesir TerritorioCoordinatedel capoluogo39°38′55″N 27°52′55″E39°38′55″N, 27°52′55″E (Provincia di Balıkesir) Superficie14 472 km² Abitanti1 160 731 (2012) Densità80,21 ab./km² Altre informazio…

For other versions of the channel, see MTV Hits. European television channel This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: MTV Hits European TV channel – news · newspapers · books · scholar · JSTOR (July 2020) (Learn how and when to remove this message) Television channel MTV HitsBroadcast area List Alba…

الخطوط الجوية الفلبينية   إياتاPR  إيكاوPAL  رمز النداء؟؟ تاريخ الإنشاء 1941  الجنسية الفلبين  المطارات الثانوية مطار كلارك الدولي[1]مطار ماكتان سيبو الدولي[2]مطار فرانسيسكو بانجوي الدولي (Davao)[3] مدن التركيز مطار كاليبو الدوليمطار تايوان تاويوان الدولي ح…

Rugby teamFairfield Yankees RFCFull nameFairfield Yankees Rugby Football ClubUnionEmpire Geographical UnionFounded1975 Ground(s)Staples High School Football Field Westport, Connecticut Team kit Official websitewww.fairfieldyankeesrugby.org The Fairfield Yankees Rugby Football Club is a Division II and IV Men's and Division II Women's Rugby Club based in Fairfield, Connecticut. Founded in 1975, the club consists of many teams, two Men's sides and one Women's side, as well as teams for Summer Seve…

For the law of this name in zoology, see Structuralism (biology) § Law of compensation. This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: The Law of Compensation – news · newspapers · books · scholar · JSTOR (September 2017) (Learn how and when to remove this message) American filmThe Law of CompensationDir…

В Википедии есть статьи о других людях с фамилией Зальцман. Карл Зальцманнем. Carl Saltzmann Дата рождения 23 сентября 1847(1847-09-23)[1][2][…] Место рождения Берлин, Германский союз[5] Дата смерти 14 января 1923(1923-01-14)[3][4][…] (75 лет) Место смерти Потсдам, Свободное гос…