Участник:ShurShur/Dumps

На случай, если случится что-либо непредвиденное: крах серверов, банкротство фонда Викимедиа, закрытие проекта через суд - необходимо сохранять регулярно дампы Википедии. Труд большого числа людей не должен пропасть бесследно.

См. также:

Дампы Википедии

Скачанные дампы в публичном доступе пока будут лежать тут: ftp://wikimedia.sbin.ru/pub/wikimedia/.

Скачивание осуществляется скриптом getwikidumps. Скрипт скачивает все файлы всех ру-проектов, а также meta: и commons:, за исключением файла pages-meta-history.xml.bz2 (который есть просто сжатая другим архиватором копия файла pages-meta-history.xml.7z). Проверка на обновления выполняется раз в 6 часов. Тестируется также скрипт для скачивания изображение getwikiimages, который пока что запускается вручную время от времени.

На досуге я также прогнал скрипт dumpHTML.php, результат брать тут.

Логи: ftp://wikimedia.sbin.ru/pub/wikimedia/logs/.

Если найдутся ещё добровольцы, согласные также сохранять дампы, будет только лучше.

Статистика

Последнее обновление: 18 августа 2006

Размеры каталогов:

745M    commonswiki/20060804/
6.0G    images/commons/
790M    images/ru/
129M    metawiki/20060807/
642M    ruwiki/20060807/
9.3M    ruwikibooks/20060805/
3.2M    ruwikinews/20060805/
8.7M    ruwikiquote/20060805/
42M     ruwikisource/20060805/
24M     ruwiktionary/20060805/

Всего 36401 изображения в каталоге images. В дампе таблицы imagelinks 45255 ссылок на изображения. Таким образом, еще 8854 картинки не загружены на сервер, неправильно обработаны скриптом или просто являются ошибочными ссылками. В таблице image картинок 22633, в commons упомянуты 24523 картинки из русской Википедии. Из них 511 файлов упомянуты в обоих таблицах. Следовательно, 45255-20124-24523+511=1119 картинок упомянуты в imagelinks, но отсутствуют в Википедии.

Как использовать дампы?

См. также официальную информацию на мете

Создание собственной копии Википедии

См. Википедия:Как сделать копию Википедии.

Импорт в установленную MediaWiki

Можно использовать легальный метод:

php maintenance/importDump.php < dumpfile.xml

Однако такой способ слишком медленный, можно вместо этого использовать специальную утилиту xml2sql, пример использования:

tabprefix=wp_
file=ruwiki/20060301/ruwiki-20060301-pages-meta-current.xml.bz2
bzcat $f|xml2sql -v
mv page.txt ${tabprefix}page.txt
mv revision.txt ${tabprefix}revision.txt
mv text.txt ${tabprefix}text.txt
mysqlimport -uroot -p wpd `pwd`/${tabprefix}page.txt `pwd`/${tabprefix}revision.txt `pwd`/${tabprefix}text.txt
php maintenance/rebuildAll.php
php maintenance/initStats.php

Так получается быстрее, а текстовые файлы с дампами могут быть полезны в других изысканиях; например, выбрав все строки из page.txt с числом 6 во втором поле, можно собрать список картинок для их скачивания (к сожалению, это относится к загруженным на ru:, но не на commons: изображениям).

Статические дампы

После импорта дампов можно выполнить скрипт maintenance/dumpHTML.php, и в каталоге static будет собрана статическая копия (HTML и JavaScript). В тексте скрипта есть краткий хелп. К сожалению, скрипт работает крайне медленно, регулярно его применять имеет смысл разве что для маленьких Википедий.

Использование картинок

Это можно, но непросто. Вкратце - необходимо images/ru использовать как основной каталог для аплоудов, images/commons - как разделяемый каталог (shared upload). расписать подробности