UWN project — Вікіпедія

Проє́кт UWN (англ. UWN project) — науково-дослідний проєкт, присвячений створенню лексико-семантичної онтологічної бази знань української та, в перспективі, російської мови. Як основу для побудови онтології проєкт використовує характерні для сімейства WordNet структурні елементи: синсети (набори синонімів, що описують єдине поняття) та набори семантичних (22 типи) і лексичних (12 типів) зв'язків. Не зважаючи на схожість логічних структур, архітектурно створювана в проєкті онтологія суттєво відрізняється як від онтологій типу WordNet, так і від інших проєктів, що можуть розглядатися як бази загальних знань доступних для автоматичного використання (ConceptNet, Cyc, Wikipedia). З точки зору архітектури UWN належить до онтологій створених на базі СУБД, що дозволило об'єднати в одному місці дані про зовнішній світ та логіку їх обробки. Базова архітектура UWN описана в статті [1]

Історія

[ред. | ред. код]

Перша версія онтологічної бази знань була розроблена в 2009, тоді ж на основі даних WordNet в рамках державної цільової науково-технічної програми "Образний комп'ютер" [Архівовано 10 травня 2013 у Wayback Machine.] на базі UWN було створено та апробовано семантичну метапошукову систему для пошуку англійською мовою в мережі Інтернет. Офіційною датою народження UWN вважається 1 липня 2010, коли до розвитку проєкту приєднався колектив фахівців факультету кібернетики КНУ ім. Т. Шевченка. На цей час в проєкті взяло участь уже понад 100 студентів, аспірантів та викладачів факультету. Керівництво проєктом здійснює декан факультету Анісімов Анатолій Васильович.

Найбільший внесок в розбудову проєкту зробили фахівці з комп'ютерної лінгвістики кафедри МІ [Архівовано 21 лютого 2012 у Wayback Machine.]. Даною групою було розроблено методики асоціативно-семантичного контекстного аналізу з використанням онтологій, що базуються на обчисленні семантичних відстаней між ключовими елементами тексту. Дані методики було використано при розробці алгоритмів для вирішення прикладних задач з автоматичної інтелектуальної обробки природномовних текстів (таких як визначення тематик текстів, семантична фільтрація потоків даних за змістом, смислове покращення якості машинного перекладу, семантичний пошук в Інтернет, аналіз настрою тексту та багато інших). Ключові ідеї групи описано в роботах [2], [3], [4], [5]. Саме ці практично апробовані алгоритми та моделі було покладено в основу програмного комплексу призначеного для обробки природномовних текстів в середині UWN.

Основні завдання проєкту

[ред. | ред. код]

Проєкт має вирішити наступні завдання [6]:

  1. створення англомовної, україномовної та російськомовної лексикографічних баз знань універсального характеру
  2. забезпечення міжмовних зв'язків між концептами онтологій
  3. створення гнучкої архітектури системи, що дозволяє вносити значні зміни в структуру даних без впливу на стандартний процес роботи UWN
  4. реалізація принципу "логіка та дані в одному місці"
  5. забезпечення онлайн доступу до онтологічної бази
  6. забезпечення сумісної та одночасної роботи користувачів та автоматизованих систем
  7. вичерпність бази (обсяг даних понад 120000 концептів)

Архітектура

[ред. | ред. код]

Базова архітектура UWN описана в статті[1]. Проте, з моменту свого створення система зазнала ряду значних змін пов'язаних з розбудовою бази знань, розширенням наявного лінгвістичного функціонала, змінами в механізмах безпеки і логування та забезпеченням одночасної роботи великої кількості користувачів. Основні принципи що мали виконуватися при створенні архітектури[7]:

  1. заснована на СУБД
  2. онтології кожної мови реалізовано у вигляді окремих логічних одиниць
  3. серверну логіку згруповано за функціональним призначенням у програмні одиниці - пакети
  4. відсутність прямого доступу до даних
  5. наявність спеціальних інтерфейсів (API) для забезпечення роботи з даними та логікою онтології
  6. розділення рівня доступу за системами та користувацькими профілями
  7. наявність централізованого контролю за доступом до даних та систем
  8. гнучкість системи, здатність до розширення новими функціями, системами та даними без втрати наявної функціональності
  9. забезпечення сумісної роботи великої кількості користувачів в т.ч. через різні системи
  10. можливість включення до системи нових підсистем для збору, аналізу та показу аналітичних даних


Використання СУБД як платформи дозволяє широко застосовувати дворівневу (клієнт-серверну) архітектуру, де СУБД виконує роль сервера та БД, а web- або десктоп- додаток роль клієнта. Основними елементами бази даних є наступні блоки (схеми) [8]:

  • ua_guest – схема, що використовується для підключення до БД всіма клієнтами.
  • ua_security – схема, що відповідає за розрізнення профілів доступу систем-додатків, інтерфейси доступу до серверної логіки, механізми логування і т.д.
  • ua_ontology – схема, що зберігає інформацію про наповнення україномовної онтології та серверну логіку, що застосовується програмами-додатками для доступу до неї.
  • en_ontology – схема, що зберігає інформацію про наповнення англомовної онтології та серверну логіку, що застосовується програмами-додатками для доступу до неї.
  • ru_ontology – схема, що запланована для зберігання інформації російськомовної онтології.
  • ua_alg – схема, що призначена для зберігання різноманітних семантичних алгоритмів та методів вимірювання ступеня семантичної зв’язності.
  • ua_morphology – схема, що призначена для зберігання морфологічної інформації для української мови, також на базі даної схеми працюють алгоритми перевірки правопису та підбору варіантів правильного написання слова.
Діаграма основних структурних елементів СУБД UWN


В цілому, внутрішня структура UWN є досить складною та сильно взаємозв’язаною, але назовні система пропонує ряд простих у використанні та добре задокументованих інтерфейсів (API). Наразі існує два типи інтерфейсів доступу до БД:

1) старий – інтерфейс типу get, який пропонує лише методи отримання інформації з онтології. Серед них: пошук синсетів, у які входить певне слово; побудова ієрархічних дерев за різними типами зв’язку; пошук синонімів і т.д. Цей інтерфейс використовується в ескізному проєкті семантичної пошукової системи та альфа-версіях клієнтів для перегляду наповнення онтології.

2) новий – інтерфейс типу get/set, призначений, в першу чергу, для внесення змін в БД. Використовується в клієнтських додатках типу онтокоректорів та онторедакторів.


Джерела

[ред. | ред. код]

Сайт проєкту UWN

Твіттер проєкту UWN [Архівовано 10 вересня 2016 у Wayback Machine.]


Література

[ред. | ред. код]
  1. а б Глибовець М.М., Марченко О.О., Никоненко А.О. «Побудова україномовної онтології засобами СУБД», Наукові записки. Національний університет "Києво-Могилянська академія". - Том 86 : Комп’ютерні науки (2008. стр. 46-50) http://biblio.ukma.kiev.ua/e-lib/NZ/NZV86_2008_computer/08_glybovets_mm.PDF[недоступне посилання з червня 2019]
  2. Анісімов А.В., Марченко О.О., Никоненко А.О. «Алгоритмічна модель асоціативно-семантичного контекстного аналізу природномовних текстів», науковий журнал «Проблеми Програмування» (2008 №2-3, стр. 379-384) http://eprints.isofts.kiev.ua/401/1/%231_D50-c379.pdf [Архівовано 2 травня 2018 у Wayback Machine.]
  3. А.В. Анисимов, К.С. Лиман, А.А. Марченко «Методы вычисления мер семантической близости слов естественного языка» // Журнал «Искусственный Интеллект» (2009, №3 стр. 612-617) http://www.nbuv.gov.ua/portal/natural/ii/2010_3/AI_2010_3%5C3%5C00_AnisimovLiman_Marchenko.pdf[недоступне посилання з червня 2019]
  4. Никоненко А.А. «Обзор баз знаний онтологического типа» // Журнал «Искусственный Интеллект» (2009, №4 стр. 208-219) http://www.nbuv.gov.ua/portal/natural/ii/2009_4/4%5C00_Nikonenko_AA.pdf[недоступне посилання з червня 2019]
  5. Марченко А.А., Никоненко А.А. «Контекстный семантический анализ текста. Система текстового мониторинга и качественного оценивания фокусного объекта» // Журнал «Искусственный Интеллект» (2008, №3 стр. 808-813) http://www.nbuv.gov.ua/portal/natural/ii/2008_3/JournalAI_2008_3/Razdel9/02_Marchenko_Nikonenko.pdf
  6. Никоненко А.О. «Проект UWN: Методологія створення універсальної онтологічної бази знань української мови» // Слайди міжнародної наукової конференції MegaLing’2011 «Горизонти прикладної лінгвістики та лінгвістичних технологій» Партеніт, Крим, Україна http://lingvoworks.org.ua/index.php?option=com_jotloader&task=files.download&cid=1427[недоступне посилання з червня 2019]
  7. Никоненко А.О. «Проект UWN: Методологія створення універсальної онтологічної бази знань української мови» // Тези міжнародної наукової конференції MegaLing’2011 «Горизонти прикладної лінгвістики та лінгвістичних технологій» Партеніт, Крим, Україна (2011 стр. 57-58) http://megaling.crimea.edu/publications/2011_Nikonenko.rtf [Архівовано 22 вересня 2015 у Wayback Machine.]
  8. Никоненко А.О. «Проект UWN: Досвід створення універсальної онлайн онтології української мови» // Тези міжнародної наукової конференції ISDMCI'2011 «Интеллектуальные системы принятия решений и проблемы вычислительного интеллекта», Євпаторія, Крим, Україна (2011 стр. 92-96) Посилання на збірник доповідей конференції [Архівовано 5 березня 2016 у Wayback Machine.]