Данный раздел предназначен для ботоводов, желающих самим работать над пространством статей заливки
Формат базы данных
В результате распознавания статей википедии-источника и ручной работы по выверке формируется база данных sqlite, в которой хранится информация о статьях и атрибутах. База данных может передаваться ботоводам при изъявлении желания с ней работать (и при наличии зарегистрированного бота, который сможет её прочесть!)
Административная структура
Таблица ADMIN хранит всю административную структуру страны
- ID номер объекта
- NAME имя на языке оригинала
- TARGET_NAME имя на русском языке
- LEVEL уровень в иерархии (0. страна, 3 - провинция, 6 - район, 8 - обoшbна, 9 - деревня, 100 - альтернативное имя; возможны и другие уровни в зависимости от страны)
- PARENT_ID номер области более высокого ранге
Метаданные по административной структуре
Таблица ADMIN_META для каждого уровня содержит название уровня, это же название в родительном, предложном падеже и во множественном числе (район, района, районе, районы), высокий и низкий уровни ...
Атрибуты объектов
Таблица содержит следующие поля
- ID - номер объекта
- ATTR_NAME название атрибута (например - POPULATION)
- ATTR_VALUE значение атрибута (например 45200)
Таблицы значений
Эти таблицы содержат перечни атрибутов и их значений на русском языке. Используется для перевода атрибутов
- ID номер объекта
- CONCEPT стандартизированное название атрибута (независимое от языка)
- NAME имя на языке оригинала
- TARGET_NAME имя на русском языке
- SHORT_TARGET_NAME сокращённое имя на русском языке
Такие таблицы составляются например для островов, политических партий и других объектов, которые не входят в основную иерархию
Модули бота
Экстракторы информации
- Экстрактор шаблонов - читает основные шаблоны в статьях вики-источника и записывает информацию из них в базу данных
- Экстрактор навигационных шаблонов - читает навигационные шаблоны в статьях вики-источника и записывает информацию из них в базу данных
- Экстрактор списков - читает списки статей (из категории, из пользователей шаблонов, из ссылающихся на данную статью ...) и записывает информацию из них в базу данных
- Экстрактор словарей - читает словари, выверенные вручную, и записывает в базу данных
- Экстрактор интервики - находит названия на других языках
- Экстрактор статуса - распознаёт существование статей и их принадлежность к категориям
- Экстрактор изображений - находит изображения из Commons
- Экстрактор отдельной информации - выделяет требуемую информацию из анализа основного текста
- Экстрактор координат - находит координаты
- Экстрактор ссылок - находит ссылки на внешние источники
- Экстрактор таблиц
Генераторы
- Генератор шаблона-статьи
- Генератор применения шаблона по заданным атрибутам объекта
- Генераторы текста по разделам
- Генератор иллюстраций
- Генератор интервики
Корректоры
- Корректор ошибок
- Корректор стиля
- Корректор оформления
- Корректор шаблона в статье
Дизамбигуаторы
- Коллектор названий
- Генератор и корректор статей-дизамбигов
- Генератор указателей на многозначные термины
Автозамены
- Бот автозамен
- Бот переименований с автозаменами ссылок
- Бот переименований категорий с автозаменами ссылок
Сталкеры
- Составитель статистики
- Слежение за событиями (новыми статьями, переименованиями ...) в википедии - источнике