Text Encoding Initiative

Text Encoding Initiative
Вебсайтtei-c.org

Text Encoding Initiative (TEI) — це міжнародна наукова група дослідників письмової мови, орієнтована на співтовариство практиків в академічній сфері цифрових гуманітарних дисциплін[en], яка працює з 1980 року. Спільнота веде список розсилки, наради та серії конференцій, а також підтримує однойменний технічний стандарт, журнал, вікі, сховище GitHub. У 2001 році ТЕІ стає консорціумом, об'єднуючи сили дослідників у галузі комп'ютерної обробки природних мов.

Значення стандарту

Digital humanities як самостійні напрями досліджень, що виникли на межі гуманітарних наук і сучасних ІТ), перетворили текст з рукописного раритету в об'єкт електронної публікації.

Оскільки бібліотеки дедалі більше оцифровують свої колекції (Google книги, Проєкт «Гутенберга», проєкт Ґалліка від Національної бібліотеки Франції, проєкт Європіана від Європейської комісії, проєкт Open Library), зростає кількість відсканованих рукописів, які сучасним методам розпізнавання тексту складно розшифровувати.

Документи цієї категорії варіюються від середньовічних рукописів до ранніх друкованих творів, більшість із них не мають електронних транскрипцій, бо поточні методи OCR не працюють, їх вміст залишається непрозорим для пошуку.

Користуючись існуючими методами розпізнавання символів нових сценаріїв дослідник іноді повинен вручну сегментувати та позначати екземпляри кожного гліфа. Інші методи передбачають розмітку цілих рядків тексту замість окремих символів[en].

Огляд методів розпізнавання тексту

Основний спосіб аналізу об'єктів тексту теоретиками обробки тексту та розробниками стандартів початку 1980-х років (спільнота SGML, в їхньому розумінні документи могли бути представлені за правилами розмітки єдиної логічної ієрархічної «фізичної» структури), принципово відрізняється від способу аналізу об'єктів літературно-лінгвістичним кодувальним співтовариством кінця 1980-х (спільнота TEI, виявила багато ієрархічних правдоподібно «логічних» структур)[1].

Уперше основні принципи системи кодування текстів ТЕІ опубліковано у 1994 році, після шести літ розробок з кодування та розпізнавання рукописних текстів вченими Оксфордського університету Лу Бернардом[en] та Шперберг­ Мак­Квіном[en][2]

В 2002 виник стандарт LMNL[3], що дозволяє розмічати та обробляти текст, не встановлюючи ієрархії взагалі. Синтаксис цього методу кодування під назвою HORSE дозволяє повністю представити будь-який документ LMNL у XML. Згодом назва методу була змінена на OSIS (XML-схема CLIX, дуже схожа на схему ініціативи кодування тексту TEI)[4].

Спочатку TEI базувалася на електронному корпусі текстів класиків англійської літератури (Oxford Text Archive[en]). Зараз до складу міжнародної наукової групи, яка адаптує систему TEI для кодування документів національних літературних корпусів, увійшли понад 100 вчених різних спеціальностей з різних країн світу, проєкти національного рівня (British National Corpus, New_Zealand_Electronic_Text_Collection[en], та менш відомі University of Michigan Humanities Text Initiative (HTI), University of Virginia Electronic Text Center, тощо.[5]

Тематика кодування текстових документів у світі постійно і послідовно розвивається з 1980-х років. В даний час в світі працює кілька спільнот, які розробляють проблемно-орієнтовані схеми кодуванні текстових документів, наприклад

Вони використовують формат TEI, пропонуючи власні розширення. До теперішнього часу їх розробки носять методичний характер: розробляється багатоцільова схема кодування рукописів, але не обговорюється автоматизація процесу кодування. Популярні проєкти по розмітці рукописних джерел орієнтовані на підтримку колективної розмітки вручну, наприклад, FromThePage[7], T-PEN (Transcription for Paleographical and Editorial Notation)[8].

Технічні деталі

Як правило, в колекціях електронних бібліотек документи зберігаються у форматі растрових графічних файлів. Транскрипція первинних текстів у машиночитану форму складається з низки актів перекладу з однієї семіотичної системи (системи первинного джерела) на іншу семіотичну систему (систему комп'ютера). Як і всі акти перекладу, цей акт теж неповний та інтерпретаційний.

Адже первинний текст існує тільки в одній формі. Біблій багато, а Codex Siniaticus лише один.

Розпізнавання тексту включає етапи передобробки (бінарізаціі зображень), сегментації (виділення текстових областей, рядків, слів, символів), аналізу бінарних зображень символів або слів (встановлення значень ознак, порівняння з еталонами) і вибору відповідних словоформ зі словника відповідно до певної моделі мови.

Розпізнавання рукописних історичних документів в останні роки стало одним з найактуальніших наукових напрямків, активною розробкою методів усунення дефектів і покращенням якості цифрових зображень рукописів[9], а також сегментації рядків[10], оскільки сегментація символів в рукописних текстах часто виявляється складною, пропонуються спеціальні алгоритми розпізнавання незрозумілих слів[11] і цілих рядків, засновані на прихованих марковських моделях[12] і випадкових полях[13], велика увага приділяється розпізнаванню давньогрецьких текстів[14] і арабських рукописів[15].

Приклади практики транскрипції, видобутку даних та редагування тексту, на основі таких програми, як T-PEN[16], бюро транскрипцій Transcribe Bentham[en], TEI-тексти[17], зробили серйозний внесок в оцінювання різноманітних форматів книг для проведення досліджень. Їх цінність не обов'язково полягає в тому, що програми полегшують текстові експерименти, а в тому, що створюється виразно інша парадигма[18].

Див. також

Примітки

  1. Refining Our Notion of What Text Really Is. cds.library.brown.edu. Архів оригіналу за 23 березня 2021. Процитовано 24 березня 2021. [Архівовано 2021-03-23 у Wayback Machine.]
  2. Формализация рукописного текста. textolog-rgali.ru. Архів оригіналу за 21 червня 2021. Процитовано 24 березня 2021.
  3. Balisage: Hierarchies within range space. www.balisage.net (англ.). Архів оригіналу за 27 серпня 2020. Процитовано 24 березня 2021.
  4. http://dspace.nbuv.gov.ua/bitstream/handle/123456789/1863/57%2520-%2520Demska-Kulchytska.pdf[недоступне посилання]
  5. Projects Using the TEI – TEI: Text Encoding Initiative. tei-c.org. Архів оригіналу за 13 квітня 2021. Процитовано 24 березня 2021.
  6. SIG:MSS - TEIWiki. wiki.tei-c.org. Архів оригіналу за 15 квітня 2021. Процитовано 24 березня 2021.
  7. FromThePage - TEIWiki. wiki.tei-c.org. Архів оригіналу за 31 липня 2016. Процитовано 24 березня 2021.
  8. T-Pen - The Digital Classicist Wiki. wiki.digitalclassicist.org. Архів оригіналу за 27 березня 2019. Процитовано 24 березня 2021.
  9. Moghaddam R.F., Cheriet M. Low quality document image modelling and enhancement // Int. J. on Document Analysis and Recognition. — 2009. — V. 11, No 4. — P. 183—201
  10. Malleron V. et al. Text lines and snippets extraction for 19th century handwriting documents layout analysis // Int. Conf. on Document Analysis and Recognition. — Barcelone, 2009. — P. 1001—1005
  11. Adamek T., O'Connor N.E., Smeaton A.F. Word matching using single closed contours for indexing handwritten historical documents //Int. J. on Document Analysis and Recognition. — 2007. — V. 9, No 2 — 4. — P. 153—165.
  12. Plötz T., Fink G.A. Markov models for offline handwriting recognition: a survey //Int. J. on Document Analysis and Recognition. — 2009. — V. 12, No 4. — P. 269—298.
  13. Feng S., Manmatha R., Mccallum A. Exploring the use of conditional random field models and HMMs for historical handwritten document recognition// 2nd Int. Conf. on Document Image Analysis for Libraries (DIAL), 2006. — P. 8-37.
  14. Ntzios K. et al. An old Greek handwritten OCR system based on an efficient segmentation-free approach //Int. J. on Document Analysis and Recognition. — 2007. — V. 9, No 2 — 4. — P. 179—192.
  15. Lorigo L.M., Govindaraju V. Offline Arabic handwriting recognition: a survey // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2006. — V. 28, No 5. — P. 712—724
  16. Архівована копія. Архів оригіналу за 16 травня 2021. Процитовано 24 березня 2021.{{cite web}}: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title (посилання)
  17. Архівована копія. Архів оригіналу за 25 травня 2018. Процитовано 24 березня 2021.{{cite web}}: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title (посилання)
  18. Original Transcription Guidelines - Canterbury Tales Project 2 - Wiki. wiki.usask.ca. Архів оригіналу за 25 жовтня 2021. Процитовано 24 березня 2021.
  19. KislakCenter/VisColl, KislakCenter, 21 березня 2021, архів оригіналу за 1 листопада 2020, процитовано 24 березня 2021
  20. Mapping the Republic of Letters. The National Endowment for the Humanities (англ.). Архів оригіналу за 24 березня 2021. Процитовано 24 березня 2021.