Спрощення тексту

Спрощення тексту – це операція, яка використовується в обробці природною мовою для модифікації, вдосконалення, класифікації чи іншої обробки існуючого корпусу зрозумілого тексту таким чином, що граматика та структура прози значно спрощуються, а основне значення та інформація залишаються так само. Спрощення тексту є важливою сферою досліджень, оскільки природні людські мови зазвичай містять великі словникові запаси та складні  конструкції, які не легко обробити за допомогою автоматизації . З точки зору зменшення мовної різноманітності може застосовуватися семантична компресія для обмеження та спрощення набору слів, що використовуються в даних текстах.

Приклад

Спрощення тексту показано на прикладі Сіддхартана (2006)[1]. Перше речення містить два відносні речення та одне поєднане дієслівне словосполучення. Система спрощення тексту спрямована на спрощення першого речення до другого речення.

Аналітик також зазначив, що зміцненню міді сприяє звіт чиказьких закупівельних агентів, який передує повному звіту закупівельних агентів, який повинен бути представлений сьогодні, і вказує, що може містити повний звіт.

Аналітик також зазначив, що зміцненню міді також сприяє звіт чиказьких закупівельних агентів. Чиказький звіт передує повному звіту закупівельних агентів. Чиказький звіт дає вказівку на те, що може містити повний звіт. Повний звіт має вийти сьогодні. Одним із підходів до спрощення тексту є лексичне спрощення за допомогою лексичної заміни, двоступеневий процес, що складається із виявлення складних слів та заміни їх простішими синонімами. Ключовою проблемою тут є визначення складних слів, яку виконує класифікатор машинного навчання, навчений на маркованих даних. Поліпшення порівняно з класичними методами застосування двійкових міток до простих чи складних слів полягає в тому, щоб попросити науковців коригувати слова в порядку складності; це призводить до вищої узгодженості отриманих міток.[2]

Примітки

  1. Siddharthan, Advaith (28 березня 2006). Syntactic Simplification and Text Cohesion. Research on Language and Computation. 4 (1): 77—109. doi:10.1007/s11168-006-9011-1. S2CID 14619244.
  2. Gooding, Sian; Kochmar, Ekaterina; Sarkar, Advait; Blackwell, Alan (August 2019). Comparative judgments are more consistent than binary classification for labelling word complexity. Proceedings of the 13th Linguistic Annotation Workshop (амер.): 208—214. doi:10.18653/v1/W19-4024. Архів оригіналу за 14 січня 2021. Процитовано 22 листопада 2019.

Джерела

  • Wei Xu, Chris Callison-Burch and Courtney Napoles. "Problems in Current Text Simplification Research [Архівовано 24 квітня 2018 у Wayback Machine.]". In Transactions of the Association for Computational Linguistics (TACL), Volume 3, 2015, Pages 283–297. (англ.)
  • Advaith Siddharthan. "Syntactic Simplification and Text Cohesion [Архівовано 20 січня 2021 у Wayback Machine.]". In Research on Language and Computation, Volume 4, Issue 1, Jun 2006, Pages 77–109, Springer Science, the Netherlands. (англ.)
  • Siddhartha Jonnalagadda, Luis Tari, Joerg Hakenberg, Chitta Baral and Graciela Gonzalez. Towards Effective Sentence Simplification for Automatic Processing of Biomedical Text. In Proc. of the NAACL-HLT 2009, Boulder, USA, June. [1] (англ.)

Посилання