Математична лінгвістика — Вікіпедія

Математи́чна лінгві́стика (також обчи́слювальна лінгві́стика або комп'ю́терна лінгві́стика) — напрямок штучного інтелекту, який ставить за мету використання математичних моделей для опису природних мов. Також, це галузь науки на межі математики й лінгвістики, що вивчає найзагальніші закони будови символьних послідовностей, або знакових систем, до яких належать деякі абстрактні матем. структури, штучні та природні мови.^[1]

Комп'ютерна лінгвістика частково перетинається з обробкою природних мов. Проте останнім часом акцент робиться не на абстрактні моделі, а на прикладні методи опису та обробки мови для комп'ютерних систем.

Розділи математичної лінгвістики

Вони залежать від середовища, в якому використовуються мови, бувають усними та письмовими. А також від дій над мовою (аналіз, створення, переклад)

Розпізнавання та синтез мови
Синтаксичний аналіз та генерація - це розділи, які "розберуть і по частинах складуть" будь-яке речення.
Власне машинний переклад.
Автоматичне реферування.

Математична лінгвістика - ряд галузей теоретичного і прикладного мовознавства, в яких використовуються поняття і методи математики (теорії імовірностей, математичної статистики, теорії інформації, математичної логіки, теорії алгоритмів тощо). Ще на початку 20 ст. російський математик А. А. Марков (старший) застосував теорію імовірностей до вивчення розподілу літер на позначення голосних і приголосних звуків у друкованих російських текстах («Євгеній Онєгін» О. С. Пушкіна, «Дитячі роки Багрова-онука» С. Т. Аксакова). Такі дослідження починаючи з 1930-х років набули важливого застосування в телеграфії й телефонії. Основне завдання тут полягало в передачі по каналах зв'язку максимальної кількості повідомлень найекономнішим способом. Щоб вирішити це завдання, потрібно знати кількісні закономірності в мовах: розподіл літер (для телеграфії) і розподіл фонем (для телефонії). Застосовуючи поняття теорії інформації, розробляють за допомогою сучасних обчислювальних пристроїв статистики мов (лінгвістична статистика). Одержані результати є важливими не тільки для телефонії і телеграфії, а й для теоретичного мовознавства. З винайденням електронних обчислювальних машин і розвитком кібернетики перед мовознавством постала низка нових завдань: машинний переклад з однієї мови на іншу, подання в автоматичні пристрої програми дії і даних, сформульованих безпосередньо у вигляді друкованих текстів або усної мови (так зване «мовне керування механізмами»). Все це потребує вивчення граматичних і лексичних властивостей мов математичними методами.

Основні поняття, які використовуються в математичній лінгвістиці

множина вихідних символів (алфавіт);
відношення між елементами алфавіту, що сприймаються як аксіоми (постулюються);
правила виводу, тобто обчислення всіх можливих множин символьних ланцюжків;
ізоморфізм, тобто одно-однозначні відношення між елементами послідовності, при яких кожному елементові однієї послідовності ставиться у відповідність елемент іншої;
гомоморфізм, одно-багатозначні відношення, послідовності, коли одному елементу першої послідовності відповідає декілька елементів другої і навпаки;
відмічений ланцюжок, тобто такий, що відповідає правилам виводу;
входження символу в послідовність, тобто поява його на заданому місці в ланцюжку;
поділ вихідної множини класу ланцюжків за певними правилами на підкласи.

Використання операцій, які базуються на цих поняттях, дає можливість одержати аналоги граматичних класів і підкласів, категорій, парадигм, синтаксичних одиниць і відношень. Властивості відношення одиниць досліджуваної знакової системи виявляють і вивчають шляхом побудови синтезувальних й аналітичних математичних моделей.

Джерела

Українська радянська енциклопедія : у 12 т. / гол. ред. М. П. Бажан ; редкол.: О. К. Антонов та ін. — 2-ге вид. — К. : Головна редакція УРЕ, 1974–1985.
В. С. Перебийніс. Математична лінгвістика // Українська мова : енциклопедія / НАН України, Інститут мовознавства ім. О. О. Потебні, Інститут української мови ; ред. В. М. Русанівський [та ін.]. — К. : Українська енциклопедія, 2000. — ISBN 966-7492-07-9.
Бук С. Основи статистичної лінгвістики: Навчально-методичний посібник. Львів: Видавничий центр ЛНУ імені Івана Франка, 2008. 124 с.
Бук С. Велика проза Івана Франка: електронний корпус, частотні словники та інші міждисциплінарні контексти : монографія / Львів : ЛНУ імені Івана Франка, 2021. 424 с. ISBN 978-617-10-0636-2
Бук С. Квантитативна параметризація текстів Івана Франка: проект та його реалізація // Вісник Львівського університету. Серія філологічна. 2013. Вип. 58. С. 290–307
Дарчук Н. П. Комп'ютерна лінгвістика (автоматичне опрацювання тексту): підручник. К.: Видавничо-поліграфічний центр “Київський університет”, 2008. 351 с.
Дарчук Н. П. Статистичні характеристики лексики як відображення структури тексту // Мовознавчі студії. К.: Наукова думка, 1976. С. 97–102.
Карпіловська Є. А. Вступ до комп’ютерної лінгвістики. Донецьк: Юго-Восток, 2003. 184 с.
Ланде Д. В. Елементи комп’ютерної лінгвістики в правовій інформатиці. К.: НДІІП НАПрН України, 2014. 351 с. ISBN 978-966-2344-33-2
Математична лінгвістика : навч. посіб. Кн.1 : Квантитативна лінгвістика / В. В. Пасічник, Ю. М. Щербина, В. А. Висоцька, Т. В. Шестакевич ; за ред. В. В. Пасічника ; М-во освіти і науки, молоді та спорту України. Львів. : Новий Світ-2000, 2012. 359 с. : іл., табл. (Серія "Комп'ютинг"). Бібліогр.: с. 351-358 (139 назв). ISBN 978-966-418-191-1
Buk S. Quantitative analysis of the novel Ne Spytavšy Brodu by Ivan Franko in the Light of Statistical and Quantitative Linguistics // Speech and context. International Journal of Linguistics, Semiotics, and Literary Science 1(VI) 2014. P. 100-112.
Buk S. Distinguishing quantitative parameters of author’s language and style (A case of Ivan Franko long prose fiction) // Вісник Львівського університету. Серія філологічна. № 70 (2019). Випуск 70. C. 299–308.

Див. також

Це незавершена стаття з мовознавства.
Ви можете допомогти проєкту, виправивши або дописавши її.

↑ Математична лінгвістика. Українська мова. Енциклопедія. litopys.org.ua. Процитовано 1 жовтня 2024.

[1] Математична лінгвістика. Українська мова. Енциклопедія. litopys.org.ua. Процитовано 1 жовтня 2024.

[1]

п о р Основні сфери інформатики
Примітка: Цей шаблон приблизно дотримується ACM Computing Classification System 2012 року.
Апаратне забезпечення	Друкована плата Периферія Мікросхема Надвелика інтегральна схема Споживання енергії Автоматизація проєктування електроніки
Організація комп'ютерних систем	Архітектура комп'ютера Конфігурація комп'ютера Вбудована система Система реального часу Безвідмовність
Мережі	Мережева архітектура Мережевий протокол Мережеві складові Мережевий диспетчер^[en] Оцінка продуктивності мережі^[en] Мережева служба
Організація програмного забезпечення	Інтерпретатор Підпрограмне забезпечення Віртуальна машина Операційна система Якість програмного забезпечення
Системи запису та розробки програмного забезпечення	Парадигма програмування Мова програмування Компілятор Предметно-орієнтована мова програмування Мова моделювання Програмний каркас Інтегроване середовище розробки Керування конфігурацією Бібліотека програм Репозиторій програмного забезпечення
Розробка програмного забезпечення	Процес розробки Аналіз вимог Проєктування Побудова^[en] Розгортання Супровід Команда програмістів^[en] Модель відкритого програмного забезпечення
Теорія алгоритмів	Модель обчислення Формальна мова Теорія автоматів Теорія складності обчислень Логіка Семантика
Алгоритми	Алгоритміка Аналіз алгоритмів Ефективність алгоритму Увипадковлений алгоритм Обчислювальна геометрія
Математика обчислювальної техніки	Дискретна математика Теорія ймовірності Статистика Математичне програмне забезпечення^[en] Теорія інформації Математичний аналіз Чисельні методи
Інформаційні системи	Система керування базами даних Системи зберігання інформації Корпоративна інформаційна система Соціальні інформаційні системи^[en] Геоінформаційна система Система підтримки рішень Система керування процесами Мультимедійна інформаційна система^[en] Добування даних Електронна бібліотека Комп'ютерна платформа Цифровий маркетинг Всесвітнє павутиння Інформаційний пошук
Безпека	Криптографія Формальні методи Послуга безпеки Система виявлення вторгнень Апаратна безпека^[en] Безпека мережі Інформаційна безпека Безпечність застосунків
Людино-машинна взаємодія	Проєктування взаємодії Соціальні інформаційні технології^[en] Повсюдний комп'ютинг Візуалізація Доступність^[en]
Паралелізм	Конкурентні обчислення Паралельні обчислення Розподілені обчислення Багатонитевість Багатопроцесорність
Штучний інтелект	Обробка природної мови Представлення знань Комп'ютерний зір Автоматизоване планування та диспетчеризація Методологія пошуку Методи керування Філософія штучного інтелекту Розподілений штучний інтелект^[en]
Машинне навчання	Кероване навчання Некероване навчання Навчання з підкріпленням Багатозадачне навчання^[en] Алгоритми машинного навчання^[en] Перехресне затверджування
Графіка	Анімація Рендеринг Ретушування зображень Графічний процесор Змішана реальність Віртуальна реальність Стиснення зображень Об'ємне моделювання
Прикладні обчислення	Електронна комерція Програмне забезпечення рівня підприємства^[en] Обчислювальна математика Обчислювальна фізика Обчислювальна хімія Обчислювальна біологія Обчислювальні суспільні науки^[en] Обчислювальна інженерія^[en] Медична інформатика Цифрове мистецтво Електронне видавництво Кібервійна Електронне голосування Відеогра Обробка текстів Дослідження операцій Освітні технології Електронний документообіг