Участник:ShurShur/DumpsНа случай, если случится что-либо непредвиденное: крах серверов, банкротство фонда Викимедиа, закрытие проекта через суд - необходимо сохранять регулярно дампы Википедии. Труд большого числа людей не должен пропасть бесследно. См. также: Дампы ВикипедииСкачанные дампы в публичном доступе пока будут лежать тут: ftp://wikimedia.sbin.ru/pub/wikimedia/. Скачивание осуществляется скриптом getwikidumps. Скрипт скачивает все файлы всех ру-проектов, а также meta: и commons:, за исключением файла pages-meta-history.xml.bz2 (который есть просто сжатая другим архиватором копия файла pages-meta-history.xml.7z). Проверка на обновления выполняется раз в 6 часов. Тестируется также скрипт для скачивания изображение getwikiimages, который пока что запускается вручную время от времени. На досуге я также прогнал скрипт dumpHTML.php, результат брать тут. Логи: ftp://wikimedia.sbin.ru/pub/wikimedia/logs/. Если найдутся ещё добровольцы, согласные также сохранять дампы, будет только лучше. СтатистикаПоследнее обновление: 18 августа 2006 Размеры каталогов: 745M commonswiki/20060804/ 6.0G images/commons/ 790M images/ru/ 129M metawiki/20060807/ 642M ruwiki/20060807/ 9.3M ruwikibooks/20060805/ 3.2M ruwikinews/20060805/ 8.7M ruwikiquote/20060805/ 42M ruwikisource/20060805/ 24M ruwiktionary/20060805/ Всего 36401 изображения в каталоге images. В дампе таблицы imagelinks 45255 ссылок на изображения. Таким образом, еще 8854 картинки не загружены на сервер, неправильно обработаны скриптом или просто являются ошибочными ссылками. В таблице image картинок 22633, в commons упомянуты 24523 картинки из русской Википедии. Из них 511 файлов упомянуты в обоих таблицах. Следовательно, 45255-20124-24523+511=1119 картинок упомянуты в imagelinks, но отсутствуют в Википедии. Как использовать дампы?См. также официальную информацию на мете Создание собственной копии ВикипедииСм. Википедия:Как сделать копию Википедии. Импорт в установленную MediaWikiМожно использовать легальный метод: php maintenance/importDump.php < dumpfile.xml Однако такой способ слишком медленный, можно вместо этого использовать специальную утилиту xml2sql, пример использования: tabprefix=wp_ file=ruwiki/20060301/ruwiki-20060301-pages-meta-current.xml.bz2 bzcat $f|xml2sql -v mv page.txt ${tabprefix}page.txt mv revision.txt ${tabprefix}revision.txt mv text.txt ${tabprefix}text.txt mysqlimport -uroot -p wpd `pwd`/${tabprefix}page.txt `pwd`/${tabprefix}revision.txt `pwd`/${tabprefix}text.txt php maintenance/rebuildAll.php php maintenance/initStats.php Так получается быстрее, а текстовые файлы с дампами могут быть полезны в других изысканиях; например, выбрав все строки из page.txt с числом 6 во втором поле, можно собрать список картинок для их скачивания (к сожалению, это относится к загруженным на ru:, но не на commons: изображениям). Статические дампыПосле импорта дампов можно выполнить скрипт maintenance/dumpHTML.php, и в каталоге static будет собрана статическая копия (HTML и JavaScript). В тексте скрипта есть краткий хелп. К сожалению, скрипт работает крайне медленно, регулярно его применять имеет смысл разве что для маленьких Википедий. Использование картинокЭто можно, но непросто. Вкратце - необходимо images/ru использовать как основной каталог для аплоудов, images/commons - как разделяемый каталог (shared upload). расписать подробности |