Text Encoding Initiative
Text Encoding Initiative (TEI) — це міжнародна наукова група дослідників письмової мови, орієнтована на співтовариство практиків в академічній сфері цифрових гуманітарних дисциплін[en], яка працює з 1980 року. Спільнота веде список розсилки, наради та серії конференцій, а також підтримує однойменний технічний стандарт, журнал, вікі, сховище GitHub. У 2001 році ТЕІ стає консорціумом, об'єднуючи сили дослідників у галузі комп'ютерної обробки природних мов. Значення стандартуDigital humanities як самостійні напрями досліджень, що виникли на межі гуманітарних наук і сучасних ІТ), перетворили текст з рукописного раритету в об'єкт електронної публікації. Оскільки бібліотеки дедалі більше оцифровують свої колекції (Google книги, Проєкт «Гутенберга», проєкт Ґалліка від Національної бібліотеки Франції, проєкт Європіана від Європейської комісії, проєкт Open Library), зростає кількість відсканованих рукописів, які сучасним методам розпізнавання тексту складно розшифровувати. Документи цієї категорії варіюються від середньовічних рукописів до ранніх друкованих творів, більшість із них не мають електронних транскрипцій, бо поточні методи OCR не працюють, їх вміст залишається непрозорим для пошуку. Користуючись існуючими методами розпізнавання символів нових сценаріїв дослідник іноді повинен вручну сегментувати та позначати екземпляри кожного гліфа. Інші методи передбачають розмітку цілих рядків тексту замість окремих символів[en]. Огляд методів розпізнавання текстуОсновний спосіб аналізу об'єктів тексту теоретиками обробки тексту та розробниками стандартів початку 1980-х років (спільнота SGML, в їхньому розумінні документи могли бути представлені за правилами розмітки єдиної логічної ієрархічної «фізичної» структури), принципово відрізняється від способу аналізу об'єктів літературно-лінгвістичним кодувальним співтовариством кінця 1980-х (спільнота TEI, виявила багато ієрархічних правдоподібно «логічних» структур)[1]. Уперше основні принципи системи кодування текстів ТЕІ опубліковано у 1994 році, після шести літ розробок з кодування та розпізнавання рукописних текстів вченими Оксфордського університету Лу Бернардом[en] та Шперберг МакКвіном[en][2] В 2002 виник стандарт LMNL[3], що дозволяє розмічати та обробляти текст, не встановлюючи ієрархії взагалі. Синтаксис цього методу кодування під назвою HORSE дозволяє повністю представити будь-який документ LMNL у XML. Згодом назва методу була змінена на OSIS (XML-схема CLIX, дуже схожа на схему ініціативи кодування тексту TEI)[4]. Спочатку TEI базувалася на електронному корпусі текстів класиків англійської літератури (Oxford Text Archive[en]). Зараз до складу міжнародної наукової групи, яка адаптує систему TEI для кодування документів національних літературних корпусів, увійшли понад 100 вчених різних спеціальностей з різних країн світу, проєкти національного рівня (British National Corpus, New_Zealand_Electronic_Text_Collection[en], та менш відомі University of Michigan Humanities Text Initiative (HTI), University of Virginia Electronic Text Center, тощо.[5] Тематика кодування текстових документів у світі постійно і послідовно розвивається з 1980-х років. В даний час в світі працює кілька спільнот, які розробляють проблемно-орієнтовані схеми кодуванні текстових документів, наприклад
Вони використовують формат TEI, пропонуючи власні розширення. До теперішнього часу їх розробки носять методичний характер: розробляється багатоцільова схема кодування рукописів, але не обговорюється автоматизація процесу кодування. Популярні проєкти по розмітці рукописних джерел орієнтовані на підтримку колективної розмітки вручну, наприклад, FromThePage[7], T-PEN (Transcription for Paleographical and Editorial Notation)[8]. Технічні деталіЯк правило, в колекціях електронних бібліотек документи зберігаються у форматі растрових графічних файлів. Транскрипція первинних текстів у машиночитану форму складається з низки актів перекладу з однієї семіотичної системи (системи первинного джерела) на іншу семіотичну систему (систему комп'ютера). Як і всі акти перекладу, цей акт теж неповний та інтерпретаційний. Адже первинний текст існує тільки в одній формі. Біблій багато, а Codex Siniaticus лише один. Розпізнавання тексту включає етапи передобробки (бінарізаціі зображень), сегментації (виділення текстових областей, рядків, слів, символів), аналізу бінарних зображень символів або слів (встановлення значень ознак, порівняння з еталонами) і вибору відповідних словоформ зі словника відповідно до певної моделі мови. Розпізнавання рукописних історичних документів в останні роки стало одним з найактуальніших наукових напрямків, активною розробкою методів усунення дефектів і покращенням якості цифрових зображень рукописів[9], а також сегментації рядків[10], оскільки сегментація символів в рукописних текстах часто виявляється складною, пропонуються спеціальні алгоритми розпізнавання незрозумілих слів[11] і цілих рядків, засновані на прихованих марковських моделях[12] і випадкових полях[13], велика увага приділяється розпізнаванню давньогрецьких текстів[14] і арабських рукописів[15]. Приклади практики транскрипції, видобутку даних та редагування тексту, на основі таких програми, як T-PEN[16], бюро транскрипцій Transcribe Bentham[en], TEI-тексти[17], зробили серйозний внесок в оцінювання різноманітних форматів книг для проведення досліджень. Їх цінність не обов'язково полягає в тому, що програми полегшують текстові експерименти, а в тому, що створюється виразно інша парадигма[18]. Див. також
Примітки
|