Статистична семантика

Статистична семантика — це наука, яка застосовує методи статистики до проблеми засвоєння значення слів або фраз, в ідеалі за допомогою неконсервованого навчання, до ступеня, принаймні достатньої для повторного вивчення інформації.

Історія

Термін статистична семантика був уперше використаний Уорреном Уівером у його відомому папері з машинного перекладу[1]. Він стверджував, що визначення сенсу слова для машинного перекладу має ґрунтуватися на частоті збігу контекстних слів поблизу цього цільового слова. Недовговічним було твердження, що «слово характеризує категорія, якій воно належить», яке відстоював Джей Р. Ферт. Це в лінгвістиці відоме як розподільна гіпотеза[2]. Еміль Делавеней визначив статистичну семантику як «статистичне дослідження значень слів та їх частоти та порядку повторення». Джорджа Фурнаса часто називають фундатором статистичної семантики[3].

Програми

Дослідження в галузі статистичної семантики привели до широкого спектра алгоритмів, які використовують розподільну гіпотезу для виявлення багатьох аспектів семантики, застосовуючи статистичні методи до великих корпорацій:

  • Вимірювання подібності у словах значень
  • Вимірювання подібності у словосполученнях
  • Моделювання узагальнення на основі подібності
  • Слова із заданим співвідношенням
  • Класифікація відношень між словами
  • Вилучення ключів з документів
  • Вимірювання ступеня узгодженості тексту
  • Різні почуття слів
  • Розрізнення різних почуттів слів
  • Субкогнітивні аспекти слів
  • Відмінності похвали від критики

Пов'язані поля

Статистична семантика фокусується на значеннях загальних слів та відношеннях між загальними словами, на відміну від текстового надбання, яке має тенденцію фокусуватися на цілих документах, збірниках документів або іменованих поняттях (іменах людей, місцях та організаціях). Статистична семантика — підполе обчислювальної семантики, що є своєю чергою підполем обчислювальної лінгвістики та обробки природної мови.

Багато із застосування статистичної семантики (перераховані вище) також можуть бути розглянуті алгоритмами на основі лексикону замість алгоритмів статистичної семантики на основі корпусу. Однією з переваг алгоритмів з урахуванням корпусу є те, що вони зазвичай є не настільки трудомісткими, як алгоритми з урахуванням лексикону. Інша перевага полягає в тому, що їх зазвичай легко адаптувати до нових мов, ніж алгоритми на основі лексикону. Однак найкраща продуктивність програми часто досягається поєднанням двох підходів.

Примітки

  1. Weaver, 1955
  2. Sahlgren, 2008
  3. Furnas та ін., 1983