Цель обсуждения Хорошо известно, что отображаемое счётчиком статей (2 003 662) количество явно завышено. Большинство текстов, которые он считает, не имеют никакого отношения к энциклопедическим статьям. Предлагается составить строгие критерии определения качества статьи с тем, чтобы можно было провести полный анализ современного состояния Википедии.
Я думаю, что ни для кого не секрет, что число, которое показывает счётчик статей
(2 003 662) явно завышено. Большинство текстов, которые он считает, не имеют никакого отношения к энциклопедическим статьям. Хорошо бы сделать такой бот, который раз в сутки бы считал общее количество статей по более строгим правилам и помещал
бы это число, к примеру, в Шаблон:Реальное количество статей. Тогда бы можно было бы хоть ориентироваться, сравнивая это число с числом на счётчике, какой процент у нас мусора и увеличивается или же уменьшается этот процент.
Предлагаю считать по следующим критериям:
Статья должна находится в основном пространстве имён.
Статья должна быть больше 500 байт.
Статья должна содержать не менее 3 внутренних ссылок.
Статья не должна входить в категории:
disambig
stub (см. ниже)
списки
Среди авторов статьи не должны быть только роботы
Какие бы ещё критерии добавить? И насколько реально сделать такого робота? --Ctac (Стас Козловский)19:12, 29 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-29T19:12:00.000Z","author":"Ctac","type":"comment","level":1,"id":"c-Ctac-2006-08-29T19:12:00.000Z-\u041f\u0435\u0440\u0432\u043e\u043d\u0430\u0447\u0430\u043b\u044c\u043d\u044b\u0439_\u0437\u0430\u043f\u0440\u043e\u0441","replies":[],"displayName":"Ctac (\u0421\u0442\u0430\u0441 \u041a\u043e\u0437\u043b\u043e\u0432\u0441\u043a\u0438\u0439)"}}-->
Еще добавил:
Не считать статьи про даты и годы. (За исключением статьи 30 февраля).
Не считать статьи про цифры (например, 10 (число)).
POV считать. Масса вполне толковых статей содержат этот шаблон, потому что некоторые товарищи на этом настаивают. Например, Гомофобия — я так и не могу добиться понимания — чего там ненейтрального. --Владимир Волохонский07:01, 31 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-31T07:01:00.000Z","author":"\u0412\u043b\u0430\u0434\u0438\u043c\u0438\u0440 \u0412\u043e\u043b\u043e\u0445\u043e\u043d\u0441\u043a\u0438\u0439","type":"comment","level":2,"id":"c-\u0412\u043b\u0430\u0434\u0438\u043c\u0438\u0440_\u0412\u043e\u043b\u043e\u0445\u043e\u043d\u0441\u043a\u0438\u0439-2006-08-31T07:01:00.000Z-\u041e\u0431\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u0435_\u0438\u0434\u0435\u0438","replies":[]}}-->
Я бы поставил ограничение не менее 1,5 Kb. Что до робота, то, вероятно, такую работу в любом случае можно будет делать тольк5о по дампу, — так, как делаются страницы статистики. — Эта реплика добавлена участником Kaganer (о • в)
Насчёт «процента мусора» — не согласен. Дело в том, что дизамбиги и уж тем более списки никак не являются мусором, и увеличение их количества улучшает качество энциклопедии. Стабы у нас стоят далеко не во всех местах, где должны быть, и наоборот — далеко не все статьи, где стоят стабы, являются «мусором» (где-то и снять можно). --AndyVolykhov↔19:18, 29 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-29T19:18:00.000Z","author":"Andyvolykhov","type":"comment","level":2,"id":"c-Andyvolykhov-2006-08-29T19:18:00.000Z-\u041e\u0431\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u0435_\u0438\u0434\u0435\u0438","replies":["c-Ctac-2006-08-29T19:35:00.000Z-Andyvolykhov-2006-08-29T19:18:00.000Z"]}}-->
Если стоит стаб, то автор недоволен текстом. Значит считаем её для простоты недоделанной. Для строго подсчёта этого достаточно. Что касается списков, то они хоть, возможно, кому-то и полезны, но энциклопедическими статьями в полном смысле этого слова не являются. --Ctac (Стас Козловский)19:35, 29 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-29T19:35:00.000Z","author":"Ctac","type":"comment","level":3,"id":"c-Ctac-2006-08-29T19:35:00.000Z-Andyvolykhov-2006-08-29T19:18:00.000Z","replies":["c-Andyvolykhov-2006-08-29T19:55:00.000Z-Ctac-2006-08-29T19:35:00.000Z"],"displayName":"Ctac (\u0421\u0442\u0430\u0441 \u041a\u043e\u0437\u043b\u043e\u0432\u0441\u043a\u0438\u0439)"}}-->
Да, но и мусором их считать нельзя! Значит, «процент мусора» — это должно быть отношение числа слишком маленьких незаконченных и залитых статей к общему числу статей, не считая списков и дизамбигов. И то если быть уверенным, что стабы расставлены по-человечески. --AndyVolykhov↔19:55, 29 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-29T19:55:00.000Z","author":"Andyvolykhov","type":"comment","level":4,"id":"c-Andyvolykhov-2006-08-29T19:55:00.000Z-Ctac-2006-08-29T19:35:00.000Z","replies":["c-Ctac-2006-08-29T20:20:00.000Z-Andyvolykhov-2006-08-29T19:55:00.000Z"]}}-->
Ну, хорошо. Не «мусором», а «статьями сомнительного качества». Я просто предлагаю создать предельно жёсткий критерий и посмотреть много ли после этого статей там останется. Если он будет отсекать стабы, то авторы статей будут думать когда их ставить, а когда нет ;)--Ctac (Стас Козловский)20:20, 29 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-29T20:20:00.000Z","author":"Ctac","type":"comment","level":5,"id":"c-Ctac-2006-08-29T20:20:00.000Z-Andyvolykhov-2006-08-29T19:55:00.000Z","replies":[],"displayName":"Ctac (\u0421\u0442\u0430\u0441 \u041a\u043e\u0437\u043b\u043e\u0432\u0441\u043a\u0438\u0439)"}}-->
Вполне разумное правило, но для этого надо все стабы и «весёлые» шаблоны свести к одному корню. Ещё не учитывать шалоны «chekup»? «wikify» … И списки все свести к категориям … Ну а стабы — например, при наличии стаба надо чтобы в статье было не менее 1600 знаков, а без стаба — 500… неон19:23, 29 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-29T19:23:00.000Z","author":"Neon","type":"comment","level":2,"id":"c-Neon-2006-08-29T19:23:00.000Z-\u041e\u0431\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u0435_\u0438\u0434\u0435\u0438","replies":["c-Ctac-2006-08-30T07:48:00.000Z-Neon-2006-08-29T19:23:00.000Z"],"displayName":"\u043d\u0435\u043e\u043d"}}-->
Согласен. Так будет логичнее. --Ctac (Стас Козловский)07:48, 30 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-30T07:48:00.000Z","author":"Ctac","type":"comment","level":3,"id":"c-Ctac-2006-08-30T07:48:00.000Z-Neon-2006-08-29T19:23:00.000Z","replies":[],"displayName":"Ctac (\u0421\u0442\u0430\u0441 \u041a\u043e\u0437\u043b\u043e\u0432\u0441\u043a\u0438\u0439)"}}-->
Чо там считать-то?! У нас в день создается не более 10 сколь-нибудь приличных статей. Умножьте на срок существования проекта в днях и задумайтесь над получившимся результатом. :-) Dart evader (а возможно, Nevermind; а может быть, и ГСБ) 19:28, 29 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-29T19:28:00.000Z","author":"\u0413\u043e\u0440\u043d\u044b\u0439\u0421\u0438\u043d\u0438\u0439\u0411\u0430\u0440\u0430\u0431\u0430\u043d","type":"comment","level":2,"id":"c-\u0413\u043e\u0440\u043d\u044b\u0439\u0421\u0438\u043d\u0438\u0439\u0411\u0430\u0440\u0430\u0431\u0430\u043d-2006-08-29T19:28:00.000Z-\u041e\u0431\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u0435_\u0438\u0434\u0435\u0438","replies":["c-Ctac-2006-08-29T19:41:00.000Z-\u0413\u043e\u0440\u043d\u044b\u0439\u0421\u0438\u043d\u0438\u0439\u0411\u0430\u0440\u0430\u0431\u0430\u043d-2006-08-29T19:28:00.000Z"],"displayName":"\u0413\u0421\u0411"}}-->
Неа. Раньше было гораздо меньше 10. Вопрос в том, увеличивается ли или уменьшается соотношение мусора к относительно нормальным статьям со временем. --Ctac (Стас Козловский)19:41, 29 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-29T19:41:00.000Z","author":"Ctac","type":"comment","level":3,"id":"c-Ctac-2006-08-29T19:41:00.000Z-\u0413\u043e\u0440\u043d\u044b\u0439\u0421\u0438\u043d\u0438\u0439\u0411\u0430\u0440\u0430\u0431\u0430\u043d-2006-08-29T19:28:00.000Z","replies":["c-\u0413\u043e\u0440\u043d\u044b\u0439\u0421\u0438\u043d\u0438\u0439\u0411\u0430\u0440\u0430\u0431\u0430\u043d-2006-08-29T19:53:00.000Z-Ctac-2006-08-29T19:41:00.000Z"],"displayName":"Ctac (\u0421\u0442\u0430\u0441 \u041a\u043e\u0437\u043b\u043e\u0432\u0441\u043a\u0438\u0439)"}}-->
Оно остается неизменно удручающим. Не так давно Максим Разин приводил статистику на страничке АПЭ. Dart evader (а возможно, Nevermind; а может быть, и ГСБ) 19:53, 29 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-29T19:53:00.000Z","author":"\u0413\u043e\u0440\u043d\u044b\u0439\u0421\u0438\u043d\u0438\u0439\u0411\u0430\u0440\u0430\u0431\u0430\u043d","type":"comment","level":4,"id":"c-\u0413\u043e\u0440\u043d\u044b\u0439\u0421\u0438\u043d\u0438\u0439\u0411\u0430\u0440\u0430\u0431\u0430\u043d-2006-08-29T19:53:00.000Z-Ctac-2006-08-29T19:41:00.000Z","replies":[],"displayName":"\u0413\u0421\u0411"}}-->
Скриптом это подсчитать довольно просто (с точки зрения написания), но полторагигабайтовая БД будет обрабатываться… хм… в общем, на Toolserver за это спасибо не скажут. Сейчас попытаюсь пооптимизировать. Ed06:16, 30 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-30T06:16:00.000Z","author":"Edward Box","type":"comment","level":2,"id":"c-Edward_Box-2006-08-30T06:16:00.000Z-\u041e\u0431\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u0435_\u0438\u0434\u0435\u0438","replies":["c-Ctac-2006-08-30T07:48:00.000Z-Edward_Box-2006-08-30T06:16:00.000Z","c-VanHelsing.16-2006-08-30T06:47:00.000Z-Edward_Box-2006-08-30T06:16:00.000Z","c-Maximaximax-2006-08-30T06:51:00.000Z-Edward_Box-2006-08-30T06:16:00.000Z"],"displayName":"Ed"}}-->
Ура! На повелителя ботов вся наша надежда :) --Ctac (Стас Козловский)07:48, 30 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-30T07:48:00.000Z","author":"Ctac","type":"comment","level":3,"id":"c-Ctac-2006-08-30T07:48:00.000Z-Edward_Box-2006-08-30T06:16:00.000Z","replies":[],"displayName":"Ctac (\u0421\u0442\u0430\u0441 \u041a\u043e\u0437\u043b\u043e\u0432\u0441\u043a\u0438\u0439)"}}-->
Насчёт stub — это неправильно, потому что у нас есть много стабов, которые по качеству далеко не стабы, а очень неплохие (но не очень большие) статьи // vh16 (обс.)06:47, 30 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-30T06:47:00.000Z","author":"VanHelsing.16","type":"comment","level":3,"id":"c-VanHelsing.16-2006-08-30T06:47:00.000Z-Edward_Box-2006-08-30T06:16:00.000Z","replies":[],"displayName":"vh16"}}-->
В случае, если в статье полностью раскрыта её тема (пусть и без значительных подробностей) пометку стаба нужно убирать, идеальной статья всё равно никогда не станет. MaxiMaxiMax06:51, 30 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-30T06:51:00.000Z","author":"Maximaximax","type":"comment","level":3,"id":"c-Maximaximax-2006-08-30T06:51:00.000Z-Edward_Box-2006-08-30T06:16:00.000Z","replies":["c-VanHelsing.16-2006-08-30T06:55:00.000Z-Maximaximax-2006-08-30T06:51:00.000Z"]}}-->
Надо убирание пометки stub сделать работой недели :)) // vh16 (обс.)06:55, 30 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-30T06:55:00.000Z","author":"VanHelsing.16","type":"comment","level":4,"id":"c-VanHelsing.16-2006-08-30T06:55:00.000Z-Maximaximax-2006-08-30T06:51:00.000Z","replies":["c-83.102.202.2-2006-08-30T06:57:00.000Z-VanHelsing.16-2006-08-30T06:55:00.000Z"],"displayName":"vh16"}}-->
Не надо! Ну вот Револьвер системы Нагана по объему и охвату нормальная статья, но пока не охвачен спортивный раздел стоит stub. Снимать его не нужно, статья не доведена до конца и нужно указать на это читателю, но и считать сомнительной статьей я бы не стал.--83.102.202.206:57, 30 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-30T06:57:00.000Z","author":"83.102.202.2","type":"comment","level":5,"id":"c-83.102.202.2-2006-08-30T06:57:00.000Z-VanHelsing.16-2006-08-30T06:55:00.000Z","replies":["c-Ctac-2006-08-30T07:53:00.000Z-83.102.202.2-2006-08-30T06:57:00.000Z"]}}-->
На мой взгляд, критерий, предложенный Неоном, — считать статьями только те стабы, которые больше 1,5 Кбайт — решит эту проблему.--Ctac (Стас Козловский)07:53, 30 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-30T07:53:00.000Z","author":"Ctac","type":"comment","level":6,"id":"c-Ctac-2006-08-30T07:53:00.000Z-83.102.202.2-2006-08-30T06:57:00.000Z","replies":[],"displayName":"Ctac (\u0421\u0442\u0430\u0441 \u041a\u043e\u0437\u043b\u043e\u0432\u0441\u043a\u0438\u0439)"}}-->
По стабам предлагаю вот что: не учитываются все статьи с пометкой {{бот}}, все статьи о фильмах, имеющие {{film-stub}} и начатые CodeMonkBot (остальные крупные заливки вроде метеоритов и NGC явно помечены), не учитываются статьи, на которых стоит {{ЭСБЕ}} и {{bio-stub}} (второй также может быть {{scientist-stub}}, {{politic-stub}} и прочее), но при этом присутствует « — ?» (это вообще позор! :(). Ed07:51, 30 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-30T07:51:00.000Z","author":"Edward Box","type":"comment","level":2,"id":"c-Edward_Box-2006-08-30T07:51:00.000Z-\u041e\u0431\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u0435_\u0438\u0434\u0435\u0438","replies":["c-83.102.202.2-2006-08-30T07:56:00.000Z-Edward_Box-2006-08-30T07:51:00.000Z"],"displayName":"Ed"}}-->
некоторые bio-stub-ы вполне нормальны, часть брокгаузов дополнена, переработана или изначально адекватна--83.102.202.207:56, 30 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-30T07:56:00.000Z","author":"83.102.202.2","type":"comment","level":3,"id":"c-83.102.202.2-2006-08-30T07:56:00.000Z-Edward_Box-2006-08-30T07:51:00.000Z","replies":["c-Edward_Box-2006-08-30T08:12:00.000Z-83.102.202.2-2006-08-30T07:56:00.000Z","c-Ctac-2006-08-30T08:06:00.000Z-83.102.202.2-2006-08-30T07:56:00.000Z"]}}-->
Ты не понял. ЭСБЕ-статьи о персоналиях, содержащие « — ?» — это статьи без года смерти. То есть родился известный путешественник в 1870 году и жив и по сей день. Ясно, что эти-то статьи никто не дорабатывал. Ed08:12, 30 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-30T08:12:00.000Z","author":"Edward Box","type":"comment","level":4,"id":"c-Edward_Box-2006-08-30T08:12:00.000Z-83.102.202.2-2006-08-30T07:56:00.000Z","replies":[],"displayName":"Ed"}}-->
Вообще правильнее было бы сначала создать отдельного бота, который бы прошёлся по всем статьям и повставлял бы шаблон бот, в статьи, которые никто кроме ботов не редактировал. Имена ботов, в принципе все известны. Что касается массовой заливки Даексом статей ЭСБЕ, то пометить шаблоном можно все статьи, которые им созданы и у которых лишь одна его правка, а остальные правки сделаны только ботами. Так можно было бы отметить все залитые, но не переработанные статьи из ЭСБЕ, статьи о мобилах, статьи о лекарствах, о фильмах и т. п., чтобы потом их можно было выкинуть из подсчёта --Ctac (Стас Козловский)08:06, 30 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-30T08:06:00.000Z","author":"Ctac","type":"comment","level":4,"id":"c-Ctac-2006-08-30T08:06:00.000Z-83.102.202.2-2006-08-30T07:56:00.000Z","replies":[],"displayName":"Ctac (\u0421\u0442\u0430\u0441 \u041a\u043e\u0437\u043b\u043e\u0432\u0441\u043a\u0438\u0439)"}}-->
Насколько понимаю, редиректы в подсчет и так не входят. А остальное оценить легко: сто раз посмотреть на случайную статью и вручную посчитать, сколько раз внятная статья выпала. С точностью плюс-минус лапоть, конечно, но все равно нечто осмысленное получится. — kcmamu08:12, 30 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-30T08:12:00.000Z","author":"Kcmamu","type":"comment","level":2,"id":"c-Kcmamu-2006-08-30T08:12:00.000Z-\u041e\u0431\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u0435_\u0438\u0434\u0435\u0438","replies":["c-Ctac-2006-08-30T08:59:00.000Z-Kcmamu-2006-08-30T08:12:00.000Z"]}}-->
В этом-то как раз вся проблема. Многие уже оценивали количество мусора по нескольким случайным статьям, но у всех получались разные цифры. По разным оценкам, сделанным подобным образом, количество мусора в русской Википедии составляет от 10 до 90 %. Не слабый такой разброс. :) Хотелось бы знать реальное положение дел, а кроме робота, считающего статьи по внятным и всем понятным критериям этого сделать не сможет никто.--Ctac (Стас Козловский)08:59, 30 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-30T08:59:00.000Z","author":"Ctac","type":"comment","level":3,"id":"c-Ctac-2006-08-30T08:59:00.000Z-Kcmamu-2006-08-30T08:12:00.000Z","replies":[],"displayName":"Ctac (\u0421\u0442\u0430\u0441 \u041a\u043e\u0437\u043b\u043e\u0432\u0441\u043a\u0438\u0439)"}}-->
Еще раз про списки. Вот такие например списки: ГКЯ, Страны мира — на мой взгляд, суть прекраснейшие статьи. Так что я бы не стал все списке под одну гребенку… --Koryakov Yuri23:07, 30 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-30T23:07:00.000Z","author":"Koryakov Yuri","type":"comment","level":1,"id":"c-Koryakov_Yuri-2006-08-30T23:07:00.000Z-\u041e\u0431\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u0435_\u0438\u0434\u0435\u0438","replies":["c-Edward_Box-2006-08-31T13:32:00.000Z-Koryakov_Yuri-2006-08-30T23:07:00.000Z","c-SergV-2006-09-01T19:22:00.000Z-Koryakov_Yuri-2006-08-30T23:07:00.000Z","c-Maximaximax-2006-09-10T18:06:00.000Z-Koryakov_Yuri-2006-08-30T23:07:00.000Z"]}}-->
Разумеется, это будет учитываться, тем более что я и придумал такую схему именования ;) Ed13:32, 31 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-31T13:32:00.000Z","author":"Edward Box","type":"comment","level":2,"id":"c-Edward_Box-2006-08-31T13:32:00.000Z-Koryakov_Yuri-2006-08-30T23:07:00.000Z","replies":[],"displayName":"Ed"}}-->
Ещё нужно исключить статьи, в которых больше 5 % текста не на русском языке. --SergV19:22, 1 сентября 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-09-01T19:22:00.000Z","author":"SergV","type":"comment","level":2,"id":"c-SergV-2006-09-01T19:22:00.000Z-Koryakov_Yuri-2006-08-30T23:07:00.000Z","replies":[]}}-->
Статьи без внешних ссылок чаще всего являются ориссами (не удовлетворяют критерию проверяемости). Думаю, что их также следует исключить. MaxiMaxiMax18:06, 10 сентября 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-09-10T18:06:00.000Z","author":"Maximaximax","type":"comment","level":2,"id":"c-Maximaximax-2006-09-10T18:06:00.000Z-Koryakov_Yuri-2006-08-30T23:07:00.000Z","replies":["c-Zserghei-2006-09-10T18:49:00.000Z-Maximaximax-2006-09-10T18:06:00.000Z"]}}-->
В статье могут быть ссылки только на печатные источники. --Zserghei18:49, 10 сентября 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-09-10T18:49:00.000Z","author":"Zserghei","type":"comment","level":3,"id":"c-Zserghei-2006-09-10T18:49:00.000Z-Maximaximax-2006-09-10T18:06:00.000Z","replies":["c-Maximaximax-2006-09-10T19:03:00.000Z-Zserghei-2006-09-10T18:49:00.000Z"]}}-->
Ну давайте тогда так: либо внешние ссылки, либо ISBN, иначе непонятно есть ли книга или это фантазии автора статьи. MaxiMaxiMax19:03, 10 сентября 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-09-10T19:03:00.000Z","author":"Maximaximax","type":"comment","level":4,"id":"c-Maximaximax-2006-09-10T19:03:00.000Z-Zserghei-2006-09-10T18:49:00.000Z","replies":["c-Solon-2006-09-10T19:23:00.000Z-Maximaximax-2006-09-10T19:03:00.000Z"]}}-->
Только, пожалуйста, не надо перегибов. В огромном количестве старых изданий никакого ISBN и в помине нет, однако это не делает их непригодными для цитирования. А фраза об ориссах в статьях без внешних ссылок выглядит, как минимум, слишком смелой. Solon19:23, 10 сентября 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-09-10T19:23:00.000Z","author":"Solon","type":"comment","level":5,"id":"c-Solon-2006-09-10T19:23:00.000Z-Maximaximax-2006-09-10T19:03:00.000Z","replies":["c-Maximaximax-2006-09-11T01:33:00.000Z-Solon-2006-09-10T19:23:00.000Z"]}}-->
Ну, ориссами, разумеется могут быть и статьи с внешними ссылками и литературой, тут не поспоришь. Однако статьи без внешних ссылок явно являются недоделанными - либо автор брал материалы из головы (а голова у всех разная), либо (очень частая ситуация) - источник не называется чтобы скрыть плагиат. В принципе, если неохота исключать их из списка "относительно качественных статей", можно просто дать справосчно как ещё один параметр "В том числе статей без внешних ссылок и литературы (без ISBN)" MaxiMaxiMax01:33, 11 сентября 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-09-11T01:33:00.000Z","author":"Maximaximax","type":"comment","level":6,"id":"c-Maximaximax-2006-09-11T01:33:00.000Z-Solon-2006-09-10T19:23:00.000Z","replies":["c-Alma_Pater-2006-09-11T22:10:00.000Z-Maximaximax-2006-09-11T01:33:00.000Z"]}}-->
Согласен с Solonом — перегибать с ISBN не стоит: по писателям то и дело сверяю даты жизни и публикаций по биобиблиографическим справочникам, которые до конца 1980-х выходили без ISBN и, как мы понимаем, уж при жизни нынешнего поколения переиздаваться с ISBN не будут (если выйдут при нашей жизни оставшиеся тома «Русские писатели. 1800—1917» — это будет чудом) --Alma Pater22:10, 11 сентября 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-09-11T22:10:00.000Z","author":"Alma Pater","type":"comment","level":7,"id":"c-Alma_Pater-2006-09-11T22:10:00.000Z-Maximaximax-2006-09-11T01:33:00.000Z","replies":[]}}-->
С окончательным критерием качества я, например, не совсем согласен. Может, считать реально качественными статьями только избранные и хорошие, прошедшие тщательный анализ? А шкалу качества надо совершенствовать: под одну шкалу статьи на разные темы не подпадают. Тогда их и считать не надо. Количество байтов в статье и количество ссылок в ней, по-моему, никакого отношения к нормальной статье не имеет. SZ(谢尔盖)20:22, 18 июля 2009 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2009-07-18T20:22:00.000Z","author":"SZ(Bel)","type":"comment","level":1,"id":"c-SZ(Bel)-2009-07-18T20:22:00.000Z-\u041e\u0431\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u0435_\u0438\u0434\u0435\u0438","replies":[],"displayName":"SZ(\u8c22\u5c14\u76d6)"}}-->
Итак, отчёт от меня требуется в следующей форме (точнее, его ничего не стоит сделать при подробном анализе):
Количество статей, подпадающих под каждый из критериев отфильтровки (иначе говоря, количество мусора по корзинам)
Количество статей, не подпадающих ни под один из критериев отфильтровки (то есть реальное количество статей)
Ed09:10, 30 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-30T09:10:00.000Z","author":"Edward Box","type":"comment","level":1,"id":"c-Edward_Box-2006-08-30T09:10:00.000Z-\u041e\u0431\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u0435_\u0432\u0438\u0434\u0430_\u043e\u0442\u0447\u0451\u0442\u0430","replies":["c-83.102.202.2-2006-08-30T09:14:00.000Z-Edward_Box-2006-08-30T09:10:00.000Z","c-Ctac-2006-08-30T21:00:00.000Z-Edward_Box-2006-08-30T09:10:00.000Z","c-\u0412\u043b\u0430\u0434\u0438\u043c\u0438\u0440_\u0412\u043e\u043b\u043e\u0445\u043e\u043d\u0441\u043a\u0438\u0439-2006-08-31T07:09:00.000Z-Edward_Box-2006-08-30T09:10:00.000Z","c-Maximaximax-2006-08-31T17:53:00.000Z-Edward_Box-2006-08-30T09:10:00.000Z"],"displayName":"Ed"}}-->
наверное, было бы небесполезным дать поковыряться в содержимом мусорных корзин, список отсеяных по критериям — неплохой стимул для их улучшения.--83.102.202.209:14, 30 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-30T09:14:00.000Z","author":"83.102.202.2","type":"comment","level":2,"id":"c-83.102.202.2-2006-08-30T09:14:00.000Z-Edward_Box-2006-08-30T09:10:00.000Z","replies":["c-Edward_Box-2006-08-30T09:20:00.000Z-83.102.202.2-2006-08-30T09:14:00.000Z"]}}-->
Можно и так. Сделаем… ;) Ed09:20, 30 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-30T09:20:00.000Z","author":"Edward Box","type":"comment","level":3,"id":"c-Edward_Box-2006-08-30T09:20:00.000Z-83.102.202.2-2006-08-30T09:14:00.000Z","replies":[],"displayName":"Ed"}}-->
Ну, ещё можно хранить где-нибудь таблицу с этими цифрами за разные месяцы, чтобы строить графики соотношения мусора к остальным статьям и наблюдать как русская Википедия улучшается/ухудшается со временем.--Ctac (Стас Козловский)21:00, 30 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-30T21:00:00.000Z","author":"Ctac","type":"comment","level":2,"id":"c-Ctac-2006-08-30T21:00:00.000Z-Edward_Box-2006-08-30T09:10:00.000Z","replies":[],"displayName":"Ctac (\u0421\u0442\u0430\u0441 \u041a\u043e\u0437\u043b\u043e\u0432\u0441\u043a\u0438\u0439)"}}-->
Для облегчения дальнейшей работы лучше боту сразу проставлять на статьях, которые подпадают под некоторые из критериев (например, про количество знаков), какой-нибудь шаблон. Тогда для следующего обсчёта надо будет анализировать только новые статьи, а остальные просто отнимать от общего количества. --Владимир Волохонский07:09, 31 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-31T07:09:00.000Z","author":"\u0412\u043b\u0430\u0434\u0438\u043c\u0438\u0440 \u0412\u043e\u043b\u043e\u0445\u043e\u043d\u0441\u043a\u0438\u0439","type":"comment","level":2,"id":"c-\u0412\u043b\u0430\u0434\u0438\u043c\u0438\u0440_\u0412\u043e\u043b\u043e\u0445\u043e\u043d\u0441\u043a\u0438\u0439-2006-08-31T07:09:00.000Z-Edward_Box-2006-08-30T09:10:00.000Z","replies":["c-Koryakov_Yuri-2006-08-31T17:05:00.000Z-\u0412\u043b\u0430\u0434\u0438\u043c\u0438\u0440_\u0412\u043e\u043b\u043e\u0445\u043e\u043d\u0441\u043a\u0438\u0439-2006-08-31T07:09:00.000Z"]}}-->
А вдруг разростётся? --Koryakov Yuri17:05, 31 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-31T17:05:00.000Z","author":"Koryakov Yuri","type":"comment","level":3,"id":"c-Koryakov_Yuri-2006-08-31T17:05:00.000Z-\u0412\u043b\u0430\u0434\u0438\u043c\u0438\u0440_\u0412\u043e\u043b\u043e\u0445\u043e\u043d\u0441\u043a\u0438\u0439-2006-08-31T07:09:00.000Z","replies":[]}}-->
Не думаю что это хорошая идея — лепить в статьи левые пометки. MaxiMaxiMax17:53, 31 августа 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-08-31T17:53:00.000Z","author":"Maximaximax","type":"comment","level":2,"id":"c-Maximaximax-2006-08-31T17:53:00.000Z-Edward_Box-2006-08-30T09:10:00.000Z","replies":["c-83.102.202.2-2006-09-01T06:43:00.000Z-Maximaximax-2006-08-31T17:53:00.000Z"]}}-->
Согласен, помечать статьи не нужно. Хватит и просто списков.--83.102.202.206:43, 1 сентября 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-09-01T06:43:00.000Z","author":"83.102.202.2","type":"comment","level":3,"id":"c-83.102.202.2-2006-09-01T06:43:00.000Z-Maximaximax-2006-08-31T17:53:00.000Z","replies":[]}}-->
Хотелось бы для сравнения получить те же данные и для других википедий. Кстати, можно ли получить исходный код скрипта, которым производился анализ? Хочется самому попробовать, немного меняя настройки. Wind21:56, 11 сентября 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-09-11T21:56:00.000Z","author":"Wind","type":"comment","level":1,"id":"c-Wind-2006-09-11T21:56:00.000Z-\u0421\u0440\u0430\u0432\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u044b\u0439_\u0430\u043d\u0430\u043b\u0438\u0437_\u0434\u0440\u0443\u0433\u0438\u0445_\u0432\u0438\u043a\u0438\u043f\u0435\u0434\u0438\u0439_\u0438_\u0438\u0441","replies":["c-Wind-2006-09-12T14:32:00.000Z-Wind-2006-09-11T21:56:00.000Z"]}}-->
Народ! Ау! :( Wind14:32, 12 сентября 2006 (UTC)[ответить]__DTELLIPSISBUTTON__{"threadItem":{"timestamp":"2006-09-12T14:32:00.000Z","author":"Wind","type":"comment","level":2,"id":"c-Wind-2006-09-12T14:32:00.000Z-Wind-2006-09-11T21:56:00.000Z","replies":[]}}-->
Чтобы повысить качество Википедии предлагается сосредоточить внимание на статьях Золотой, Серебрянной, Бронзовой Википедии, идея которых сформулирована в Википедия: Три основы