Cette page est dédiée à toutes les discussions concernant le robot CodexBot (bugs et suggestions). Pour rapporter une anomalie du robot, merci de mentionner le nom de l'article. Le bot répond parfois !
Les fils de discussion âgés de plus de 60 jours sont archivés automatiquement.
Watching for usurped sites
Hi. In special:diff/203596577 the bot changed the citation, though what has happened is that the target url has been usurped, and the bot has picked up the spam text that often utilised at this usurped targets. It would be good if the bot could be aware of text like "RAJAGACOR : Situs Raja Slot Gacor Online Daftar Judi Slot88" and flag the link for review, rather than implement it. Thanks for the consideration. Billinghurst (discuter) 8 août 2023 à 00:19 (CEST)[répondre]
There are dozens of examples where the bot is doing this conversion to updating your references to spam. I would suggest an abuse filter and a tag so that your community can manually resolve these. Text "slot gacor" would be really good starting point. Billinghurst (discuter) 17 août 2023 à 14:38 (CEST)[répondre]
Après analyse, il n'existe pas de solution technique simple permettant de détecter les sites usurpés (lib open-source, API, liste, text pattern, etc). Par ailleurs, la proportion de liens usurpés est faible (estimé <0.1%). Donc c'est pas rentable d'implémenter quelque chose sur CodexBot.
Bonjour vous dites que c’est compliqué parce que le bot va chercher le titre dans la source externe, c’est cela ? Bien à vous.--Harrieta171 (discussion) 14 octobre 2023 à 09:42 (CEST)[répondre]
Oui. Pour ce site, le bot a extrait le titre de la page web : Assemblée Nationale - Journal officiel - Débats parlementaires de la 4e République. Comme il considère qu'un titre HTML n'est pas une donnée fiable, il a :
raccourci le titre jugé trop long (en retirant "Débats parlementaires…")
ajouté le commentaire invisible <!-- Vérifiez ce titre -->
Intégrer au bot un correcteur grammaticale/orthographique, pour le traitement automatique (=sans validation humaine) de milliers d'éditions, est trop compliqué ou coûteux en temps. Les modifications du bot sont souvent imparfaites, mais je base le fonctionnement du bot sur le principe : « La référence est mieux qu'avant. ».
Aussi, ce type d'erreur typographique sera probablement corrigée un jour par un wikipédien vérifiant manuellement les pages avec un script (comme WP:AutoWikiBrowser)
Je suis tombé sur plusieurs cas où le bot crée des liens archives qui ne fonctionnent pas, par exemple ici vers cette page.
D'autre part, est-ce qu'il ne serait pas mieux de laisser en place le paramètre "|url" et de compléter avec "|brisé le", "|archive-url" et "|archive-date" par soucis de lisibilité ? Voire d'utiliser {{Lien archive}} ? Ces deux méthodes sont préconisées dans Projet:Correction des liens externes#Mode d'emploi.
Pour répondre vite, la gestion des liens morts et l'affichage des archives est une usine à gaz.
Des pratiques et modèles inadaptés. En l'occurence, {{lien archive}} (ou param "archive-url") est dédidé exclusivement au site Internet Archive, les pages d'aide sont obsolètes, l'affichage suggéré aux lecteurs est dégueulasse (on privilégie le clic sur un lien mort...), micro-consensus vieux de 15 ans par 10 mecs, etc. Bref, c'est caca depuis 15-20 ans, quasiment rien n'a jamais été fait et y'a que moi qui me lance dans le ménage, donc finalement je fais comme je veux.
J'ai en projet une refonte des pages d'aide, modèles, sondages, etc. Mais ça prend un temps fou. Faut bien préparer les consultations communautaires (car les wikipédiens sont souvent crétins), donc j'ai repoussé à plus tard.
Pour ta première remarque, j'avais jamais vu ce problème sur wikiwix : la page [2] renvoit un statut "200 ok" alors que l'affichage correspond à une erreur. Faut que je rajoute une vérification. Merci @Vega :) Irønie (d) 10 novembre 2023 à 16:10 (CET)[répondre]
Bonjour Irønie, ok pour les archives, c'est vrai qu'on a du mal à s'y retrouver et que ça demanderait une refonte. Le principal pour l'instant est qu'on trouve l'info recherchée.
Aujourd'hui la plupart des liens que je pointais fonctionnent, pour me faire mentir... Sauf celui-ci, introduit par le bot ici. Quant au statut "200 ok", il pourrait découler d'une archive dont le texte s'affiche bien, même si les images manquent ? Bien à toi — Vega (discuter) 16 novembre 2023 à 17:47 (CET)[répondre]
J'ai signalé à Wikiwix le bug des URL erreur 400. Je répondrai plus tard à propos des pépins avec certains liens InternetArchive. Merci d'avoir signalé. -- Irønie (d) 17 novembre 2023 à 23:48 (CET) Petit à petit, l'oiseau fait son nid :)[répondre]
C'est vrai que l'idéal serait effectivement d'utiliser les paramètres du modèle destinés à l'archivage… Mais la solution actuelle n'est pas mal non plus ([3]). Merci ! Omnilaika02 (d) 9 décembre 2023 à 09:42 (CET)[répondre]
Bonjour,
[4] le bot a effectué des modifications de réfs curieuses : suppression des espaces entre paramètres dans un {Ouvrage} ; maintien et ajout d'espaces dans un autre, au format " |" ; maintien et ajout d'espaces au format "| " dans un troisième... Il semble qu'il choisisse en fonction du formatage préexistant du premier paramètre. Ce serait plus sensé, lisible et homogène qu'il applique une mise en forme standard. Celle recommandée dans Modèle:Ouvrage de préférence (format " |").
@Vega : Tout simplement parce qu'on ne peut pas fournir une autre solution robuste accessible et admissible par les contributeurs pour le moment. Veux-tu lancer une PDD proposant de supprimer tous les contenus reposant sur ces modèles ? Non, n'est-ce pas ? Donc, on fait avec du contenu peu ou plutôt pas accessible (et même pire). Pour le moment. Et sans souci. Cordialement, --CodexBot (signaler erreur) 4 novembre 2023 à 16:07 (CET)[répondre]
Salut Vega : ! Exact, Codex imite le formatage préexistant. Et je suis du même avis, ce serait plus sensé et homogène… De mon côté, c'est des réglages on/off modifiables en 2 minutes.
Mais à la modification des espaces compliquait un peu la lecture des diffs, ça faisait râler. L'affichage des diffs a été amélioré depuis 2 ans, donc l'argument est moins pertinent.
Le changement des espacements {ouvrage} énervait certains rédacteurs (revert!) qui ont leur goût préféré ; par exemple la mise sur une seule ligne d'un {ouvrage} ou même les petits espacements "|". Sur enwiki, ils forcent un formatage identique depuis longtemps, mais c'était pas accepté ici. Par le passé, j'étais très soucieux du consensus, aujourd'hui moins. :P
Merci à vous deux pour ces explications. Il semble qu'aucune solution ne serait donc la bonne... Personnellement, je serais pour harmoniser tout WP (comme en.WP dit Ironie). — Vega (discuter) 7 novembre 2023 à 03:02 (CET)[répondre]
@Vega : Mais il y a des couacs occasionnels et inévitables, qui ne sont pas pour autant dramatiques (rien n'est jamais définitif sur Wikipédia). Ne sautez pas d'un problème ponctuel à une généralisation, cela n'aide pas. Cordialement, --CodexBot (signaler erreur) 7 novembre 2023 à 03:17 (CET)[répondre]
Le bot voit un lien brisé, mais en fait il y a juste deux liens l'un après l'autre, qui sont tous les deux fonctionnels. Il faudrait peut-être lui dire qu'une URL ne peut pas contenir de retour à la ligne.
En farfouillant dans la Catégorie:À faire, je suis tombé sur Magnus Malan, un super-galonné Sudaf. Sa généalogie renvoie vers la page d'homonymie Malan, qui présente une section entière intéressant notre baderne. J'ai donc modifié le lien de Malan, vers Malan#Afrique du Sud. Ainsi le lecteur curieux atterrira directement sur la section pertinente. C'est mieux (Je suis très content de moi. D'abord parce que je m'aime bien, et puis aussi parce que j'aime bien être content.) Toutefois, ça cloche sur la page de discussion. Vu que je n'ai pas supprimé le lien vers une page domonymie, je peux supprimer le message du Bot, mais je gage qu'à son prochain passage, le même message va revenir. Et à terme, un autre maintenanceur repassera ... et perdra son temps, sauf s'il trouve une solution plus mieux.
@Kikuyu3 : Franchement, depuis que je connais Wikipédia, tout va de mal en pis. Le français recule constamment face à l'impérialisme linguistique anglo-saxon (jusqu'aux bureaucrates pourtant gardiens du temple qui adoptent des pseudos à la consonance scandaleuse, quand ils ne sont pas ouvertement traîtres à la Cause). --CodexBot (signaler erreur) 17 novembre 2023 à 19:17 (CET)[répondre]
Je demande à ce que dans les modèles comme Ouvrage le paramètre id= soit en tête, parce qu'en création de page où il y a beaucoup de renvois et références par sfn et harvsp, c'est le paramètre le plus utile, qui doit pouvoir être vu facilement, donc au début, et non à la fin, les items étant de longueur très variable.
Un bot utile à créer serait celui qui extrait d'une page la liste des id= et name= : ça faciliterait beaucoup le travail dans les pages où il y a beaucoup de renvois et références. Cordialement — Valp28 novembre 2023 à 17:48 (CET)[répondre]
@Arcyon37 : Wikipédia est ce que ses contributeurs en font : en matière technique, comme ils sont généralement des internautes confrontés à des questions techniques qui les dépassent un peu, ça donne ce que ça donne. Ce n'est pas forcément un problème, cela dit. --CodexBot (signaler erreur) 14 décembre 2023 à 10:16 (CET)[répondre]
Litlok : : Une non-correction par le bot d'une erreur de syntaxe préexistante (également ignorée par Mediawiki). Un humain (wikipédien!) peut déceler le problème d'URL, mais c'est extrêmement compliqué pour un bot de détecter le pépin. Surtout que l'URL erronée fonctionne parfaitement chez Youtube ! Ensuite c'est une erreur typo très rare, osef.
Croquemort Nestor : Le bot a traité un lien externe (et ajouté un commentaire invisible), alors que ce lien était dans un gros bloc de texte invisible. Donc ça a fait apparaitre du vieux texte masqué.
J'ai nettoyé l'article en supprimant le vieux texte masqué inutile
Problème de comportement du bot : il ne devrait pas modifier les liens qui sont à l'intérieur d'un bloc de commentaire invisible. J'avais jamais vu ce cas, ni pensé à ce pépin pour les liens externes.
Rolala c'est un vrai bug chiant ça le « %3c/ref%3e ». On dirait que ça vient d'un </ref> en trop, quand le vieil éditeur de code ne signalait pas les problèmes de ref. Tu trouves des bugs que j'avais jamais vu !! -- et pourtant je regarde vérifie des centaines de diffs !!
J'ai coupé les bots. Je vais corriger le code, et les 3 articles avec ce pépin.
CodexBot en pause partielle, à cause d'un petit bug qui cause des edits inutiles [5] sur la complétion {lien web}. Y'a aussi un bug sur la complétion {ouvrage} de CodexBot2. Irønie26 janvier 2024 à 11:36 (CET)[répondre]
À faire Wikipedia library
Bonjour CodexBot! Si tu as du temps (ça devient rare de nos jours, mais si jamais..), il serait utile de remplacer les liens du proxy EZproxy de La bibliothèque Wikipédia que des contributeurs ont ajoutés en référence, mais qui ne sont pas accessibles aux lecteurs, par le lien direct de la ressource. En théorie, il s'agit juste de retirer le suffixe, et de remplacer les tirets par des points, comme sur [6]. Les anglais ont corrigé le problème pour enwiki, sans penser à nous phab:T240124.
Vu qu'un traitement comme celui-là des références pourrait bénéficier des capacités de ton code, je viens te suggérer modestement ce travail, si tu ne veux pas t'en occuper, je m'en chargerais. Merci d'avance! -Framawiki✉13 février 2024 à 12:14 (CET)[répondre]
Bonjour,
Je me suis retrouvé en conflit d'historique avec CodexBot (diff) alors que l'article portait le bandeau {{en cours}}. Je présume que cela doit pouvoir se régler (je pensais, sans doute à tort, qu'il y avait une espèce de tag automatique qui prévenait les bots d'intervenir dans ce genre de cas). Rien de grave en l'occurence, mais je préférais te le signaler.
@CaféBuzz : En bref, il me semble que Wikipédia a ses règles, qui ne sont pas forcément celles des autres, mais ces lois sont basées sur une culture originairement numérique et une logique d'accessibilité... --CodexBot (discuter) 17 février 2024 à 02:42 (CET)[répondre]
Pour limiter les conflits de version, le bot n'intervient pas si un humain a édité l'article dans les dernières 10 ou 15 minutes : dans ton cas c'était 20 minutes après. T'es trop lent !
Par contre, avec {{en cours}} sur l'article, il n'aurait pas dû éditer ! Probablement une erreur de configuration : je me souviens de {en travaux} mais j'ai peut-être oublié le modèle {en cours}.
Hello! Une autre idée pour la catégorie "si tu as le temps"
Beaucoup de comptes publicitaires ont compris comment fonctionne wikipédia, et sourcent leurs articles avec des liens provenant de sites de médias connus, en y glissant un publi-communiqué. Voir par ex [7] bourré de tels liens, et ce message sur le bistro: Wikipédia:Le_Bistro/16_février_2024#Attention_aux_articles_sponsorisés.
Si ton bot ouvre les références, peut-être peut-il laisser un message sur une page s'il voit dans le contenu de la source un "en partenariat avec" ou "Médias France" (un grand nom de ce système)? Seulement si tu fais un HTTP GET, et pas un HEAD, bien-sûr. -Framawiki✉20 février 2024 à 16:19 (CET)[répondre]
@Encyclopédisme : La modification envisagée étant loin d'être transparente (visuellement), une décision prise par une petite poignée de contributeurs/admins sur des pages de maintenance technique aurait sans doute été fortement critiquée pour son absence d'avis communautaire... --CodexBot (discuter) 24 février 2024 à 20:42 (CET)[répondre]
Ma question était la suivante: Est-ce qu'on peut activer le bot? En tant que bénévole. Citation Bot n'est pas réservé à une clique de contributeurs, son utilisation est autorisée pour tous. Cdlt. Encyclopédisme (discuter) 24 février 2024 à 20:50 (CET)[répondre]
Je ne comprends pas. Qui êtes-vous? Est ce que l'utilisation de ce bot (comme par exemple il est le cas avec Citation Bot, où l'on peut appuyer sur 'activate' et désigner l'article souhaité) est possible pour tous. Est-ce que l'on peut suggérer un article? Encyclopédisme (discuter) 24 février 2024 à 21:49 (CET)[répondre]
Bonjour, le bot ajoute automatiquement le paramètre « consulté le » avec la date du jour, ce qui n’est pas pertinent puisque ce paramètre indique normalement la date à laquelle la source a été consultée, alors que le bot ne fait qu’extraire les métadonnées de la page. Par exemple sur Spécial:Diff/214007703 il ajoute consulté le=06-04-2024 alors que la source a vraisemblement été consultée le 10 février 2024. Dans cet exemple la différence est vraiment minime, mais de manière générale il faudrait éviter de remplir ce champ avec une date erronée, en particulier lorsque les liens pointent vers des pages qui peuvent changer au cours du temps. -- Okhjon (discuter) 6 avril 2024 à 11:41 (CEST)[répondre]
@Okhjon : Il vaut mieux une date erronée ultérieure, que rien du tout. Je comprends ton point de vue, perfectionnisme. Mais la recherche automatiques des diffs par le bot coûte du temps/ressource. Et les humains ne le feront jamais. Y'a des MILLIONS de liens externes morts, tous les jours des centaines/milliers qui meurent, et depuis 20 ans les humains s'en occupent pas. Donc l'illusion du « mieux » et d'une maintenance humaine de ces liens bruts, arrête de rêver. Irønie6 avril 2024 à 13:44 (CEST)[répondre]
Pharma pour moi « consulté le » correspond à la date où la source a été consultée et pas à la dernière date à laquelle on a vérifié que le lien n’était pas brisé. C’est pertinent pour les sources qui changent au fil du temps, comme les classements ou certains sites mal conçus. Si on considère que c’est la date à laquelle on a vérifié que le lien n’était pas brisé (mais le bot gère-t-il les « soft 404 », ces pages qui retournent un « 200 OK » mais qui sont en réalité des 404 ?), alors effectivement je suis d’accord qu’il vaut mieux une date que rien du tout. -- Okhjon (discuter) 6 avril 2024 à 22:17 (CEST)[répondre]
Documentation : « consulté le : Date de consultation du document. Permet de surveiller l’obsolescence de l'URL. Correspond au champ accessdate sur la Wikipédia anglophone. »
C'est une remarque récurrente ici, certains wikipédiens considèrent que ce champ est une date de « validation » humaine de la source (rédaction, pertinence...), mais à l'origine ce paramètre est juste une donnée pour faciliter la détection/gestion des liens morts. Irønie7 avril 2024 à 11:30 (CEST)[répondre]
Langue=fr
Depuis que des correcteurs savants supprimaient cet item, après m'avoir expliquer que c'était un élément inutile et donc que je n'employais plus, je vois que le bot le rétabli par exemple Jacqueline de Chevigny . Faut-il réutiliser cet item si fr? Cordialement (je ne sais pas si c'est adapté pour un bot mais au moins pour son dresseur) Brunodumaine (discuter) 10 avril 2024 à 23:02 (CEST)[répondre]
@Brunodumaine : Nous sommes là pour le corriger dans les très rare cas où la situation se présente. D'ailleurs, selon moi, le typographie proposée (pour celle des crochets) n'a rien de valable, outre sa laideur, elle n'est reconnue par absolument personne pour marquer des notes dans la typographie française. --CodexBot (discuter) 10 avril 2024 à 23:42 (CEST)[répondre]
@Pharma : Il faut arbitrer entre au moins trois exigences immédiates, également fortes et tout aussi légitimes, que de bêtes limitations techniques dues à certains choix fondamentaux de mediawiki rendent parfois contradictoires --CodexBot (discuter) 13 avril 2024 à 17:42 (CEST)[répondre]
Typographie
Bonjour, dans les modifications en cours sur les articles portant sur les élections législatives (ex.), serait-il possible de respecter la typographie d'Assemblée nationale et non Assemblée Nationale (voir Assemblée nationale (France)) ? Merci d'avance. Bien à vous. Harrieta171 (discussion) 27 juin 2024 à 08:34 (CEST)[répondre]
Bonjour, je n'ai pas compris. Ce que je demande au bot c'est d'écrire Assemblée nationale, en respect des WP:Conventions typographiques. Mais je ne comprends pas l'ergonomie douteuse ni le concept incompatible avec un projet encyclopédique. Peut-être que l'extraction des données fait appel à une source fautive qu'il n'est pas possible de modifier. Est-ce cela ? Bien à vous. Harrieta171 (discussion) 27 juin 2024 à 13:29 (CEST)[répondre]
Bonjour,
C'est le bot qui vous a répondu de façon artificielle et automatique. Cette réponse donc ne concerne en rien le sujet que vous avez remonté. Une réponse plus adaptée par le dresseur du bot, Irønie, devrait arriver très prochainement. Bonne continuation. Evynrhud (discuter) 27 juin 2024 à 13:34 (CEST)[répondre]
Le bot ne peut pas se tromper en récupérant ce qu'il trouve entre les balises <title>. Une correction ni même une intervention humaine ne sont nécessaires : la transcription du titre doit être fidèle à la page d'origine, même si elle comporte une faute d'orthographe ou de typographie (sinon, ce n'est plus le même titre !). — Pharma💬28 juin 2024 à 23:24 (CEST)[répondre]