Статистична семантика
Статистична семантика — це наука, яка застосовує методи статистики до проблеми засвоєння значення слів або фраз, в ідеалі за допомогою неконсервованого навчання, до ступеня, принаймні достатньої для повторного вивчення інформації. ІсторіяТермін статистична семантика був уперше використаний Уорреном Уівером у його відомому папері з машинного перекладу[1]. Він стверджував, що визначення сенсу слова для машинного перекладу має ґрунтуватися на частоті збігу контекстних слів поблизу цього цільового слова. Недовговічним було твердження, що «слово характеризує категорія, якій воно належить», яке відстоював Джей Р. Ферт. Це в лінгвістиці відоме як розподільна гіпотеза[2]. Еміль Делавеней визначив статистичну семантику як «статистичне дослідження значень слів та їх частоти та порядку повторення». Джорджа Фурнаса часто називають фундатором статистичної семантики[3]. ПрограмиДослідження в галузі статистичної семантики привели до широкого спектра алгоритмів, які використовують розподільну гіпотезу для виявлення багатьох аспектів семантики, застосовуючи статистичні методи до великих корпорацій:
Пов'язані поляСтатистична семантика фокусується на значеннях загальних слів та відношеннях між загальними словами, на відміну від текстового надбання, яке має тенденцію фокусуватися на цілих документах, збірниках документів або іменованих поняттях (іменах людей, місцях та організаціях). Статистична семантика — підполе обчислювальної семантики, що є своєю чергою підполем обчислювальної лінгвістики та обробки природної мови. Багато із застосування статистичної семантики (перераховані вище) також можуть бути розглянуті алгоритмами на основі лексикону замість алгоритмів статистичної семантики на основі корпусу. Однією з переваг алгоритмів з урахуванням корпусу є те, що вони зазвичай є не настільки трудомісткими, як алгоритми з урахуванням лексикону. Інша перевага полягає в тому, що їх зазвичай легко адаптувати до нових мов, ніж алгоритми на основі лексикону. Однак найкраща продуктивність програми часто досягається поєднанням двох підходів. Примітки |