Ідентифікація мови (англ. language identification), в методиці обробки природної мови — визначення мови. Проблема ідентифікації мови є особливим випадком категоризації тексту і вирішується з використанням статистичних методів.
Огляд
Для ідентифікації мови реалізується архітектура PPRLM (parallel phonemes recognition + language model) з паралельним підключенням фонетичних розпізнавачів, навчених декількома мовами. Фонетичне розпізнавання виконується на основі прихованих марковських моделей (ПММ) за допомогою алгоритму Вітербі.
Для прийняття рішення щодо приналежності мовного повідомлення до тієї чи іншої цільової мови реалізується підхід з класифікатором на основі методу опорних векторів (SVM — support vector machines).
Принцип роботи системи, побудованої на основі класичного PPRLM, полягає в наступному:
- в системі присутні кілька фонетичних розпізнавачів;
- кожен вхідний звуковий файл розпізнається фонетичними розпізнавачами;
- за результуючою послідовністю фонем кожного фонетичного розпізнавача рахуються міри близькості до моделі n-gramm тієї чи іншої цільової мови;
- мова з максимальною мірою близькості моделі n-gramm вважається такою, що перемогла.
У вдосконалених системах PPRLM ідентифікація мови реалізується у вигляді відкритої задачі: проводиться перевірка: «належить» / «не належить» оброблений файл цільовій мові, рішення приймається автоматично з урахуванням порога, встановленого користувачем.
До базового алгоритму додаються наступні кроки:
- на результуючу послідовність фонем кожного фонетичного розпізнавача накладається модель n-gramm тієї чи іншої "опорної" мови і рахуються міри близькості моделі n-gramm до послідовності фонем;
- повний набір мір близькості моделей n-gramm до послідовностей фонем є вхідним вектором для класифікатора SVM;
- за результатом класифікації SVM-класифікатором приймається рішення про приналежність до цільової мови за допомогою порівняння з встановленим порогом для кожної цільової мови окремо.
Звуковий файл є вимовленим цільовою мовою, якщо оцінка, що надана SVM-класифікатором, більше порога. При цьому звуковий файл може бути віднесений до однієї або декількох мов одночасно або не віднесений до жодної з них.
Ідентифікація схожих мов
Однією з найбільших проблем систем ідентифікації мов є розрізнення близькоспоріднених мов. Подібні мови, такі як болгарська та македонська або індонезійська та малайська, мають значні лексичні та структурні збіги, що ускладнює їх розрізнення системами.
У 2014 році було організовано спільне завдання DSL, яке надало набір даних (Tan et al., 2014), що містить 13 різних мов (і мовних різновидів) у шести мовних групах: Група A (боснійська, хорватська, сербська), Група B (індонезійська, малайзійська), Група C (чеська, словацька), Група D (бразильська португальська, європейська португальська), Група E (півострівна іспанська, аргентинська іспанська), Група F (американська англійська, британська англійська). Найкраща система досягла продуктивності понад 95% результатів (Goutte et al., 2014). Результати спільного завдання DSL описані в Zampieri та ін., 2014.
Див. також
Література
- Joshua Goodman. Extended Comment on Language Trees and Zipping [Архівовано 20 січня 2022 у Wayback Machine.]. arXiv: cond-mat/0202383 [cond-mat.stat-mech]
- Benedetto, D., E. Caglioti and V. Loreto. Language trees and zipping [Архівовано 20 січня 2022 у Wayback Machine.]. Physical Review Letters, 88:4 (2002), Complexity theory.
- Cavnar, William B. and John M. Trenkle. «N-Gram-Based Text Categorization». Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (1994) [1] [Архівовано 5 листопада 2013 у Wayback Machine.].
- Cilibrasi, Rudi and Paul M.B. Vitanyi. «Clustering by compression [Архівовано 20 січня 2022 у Wayback Machine.]». IEEE Transactions on Information Theory 51(4), April 2005, 1523—1545.
- Dunning, T. (1994) «Statistical Identification of Language». Technical Report MCCS 94-273, New Mexico State University, 1994.
- Goodman, Joshua. (2002) Extended comment on «Language Trees and Zipping» [Архівовано 8 лютого 2007 у Wayback Machine.]. Microsoft Research, Feb 21 2002. (This is a criticism of the data compression in favor of the Naive Bayes method.)
- Grefenstette, Gregory. (1995) Comparing two language identification schemes. Proceedings of the 3rd International Conference on the Statistical Analysis of Textual Data (JADT 1995).
- Poutsma, Arjen. (2001) Applying Monte Carlo techniques to language identification. SmartHaven, Amsterdam. Presented at CLIN 2001.
- The Economist. (2002) «The elements of style: Analysing compressed data leads to impressive results in linguistics [Архівовано 17 жовтня 2009 у Wayback Machine.]»
Посилання
Бібліотеки
Web-сервіси