Викиданные — Википедия

Викиданные
англ. Wikidata
Изображение логотипа
URL wikidata.org
wikidata.org/wiki/Wikida… (англ.)
Коммерческий нет
Тип сайта содержательный проект Викимедиа[вд], MediaWiki-сайт, база знаний, онлайновая база данных[вд] и граф знаний[вд]
Владелец Фонд Викимедиа
Создатель Сообщество Викимедиа[вд]
Начало работы 29 октября 2012[1]
Текущий статус работает, постепенно наращивая функциональность
Слоган the free knowledge base that anyone can edit, la base de conocimiento libre que todo el mundo puede editar и מאגר הידע החינמי שכל אחד יכול לערוך
Логотип Викисклада Медиафайлы на Викискладе

«Викида́нные» (англ. Wikidata) — совместно редактируемая база знаний, созданная Фондом Викимедиа. Используется для обеспечения централизованного хранения данных, которые могут использоваться в других проектах, в том числе в статьях Википедии — например, интервики-ссылок, значков статусных статей и списков или статистической информации: дат рождения, численности населения и т. п.[2] Содержимое Викиданных распространяется по лицензии Creative Commons CC0[3].

Создатель всемирной паутины Тим Бернерс-Ли описывал её как совокупность связанных между собой человекочитаемых документов, расположенных на серверах по всему миру.

Логическим развитием этой идеи стала семантическая паутина, предложенная им же в 2001 году. Она предполагала построение столь же масштабной и распределённой сети взаимосвязанных машиночитаемых данных.

Одной из важных вех в реализации этой идеи стало анонсирование компанией Google в мае 2012 года концепции Knowledge Graph[4]. На тот момент уже существовали аналогичные (хоть и значительно менее масштабные) инструменты этого типа, такие как DBpedia и YAGO[англ.] (автоматически импортировавшие данные преимущественно из википедии), а также Freebase, NELL[англ.] и OpenCyc (преимущественно наполняемые людьми)[5].

В октябре 2012 года была официально запущена разработка «Викиданных» под руководством Wikimedia Deutschland[6], таким образом став первым новым проектом Фонда Викимедиа с 2006 года[7].

Стартовое финансирование было получено от Института искусственного интеллекта Пола Аллена[англ.], Фонда Гордона и Бетти Мур[англ.] и Google в размере 1,3 миллиона евро[8].

Первоочередной задачей было создание централизованного хранилища «интервики»-ссылок, то есть ссылок на страницы проектов Фонда, описывающих одни и те же темы.

Одна запись (элемент) Викиданных может быть связана с множеством страниц в любом вики-проекте, включая (но не ограничиваясь) всеми языковыми разделами Википедии.

Это позволяет «потребителям» Викиданных (например русской википедии), для каждой статьи отображать список аналогичных статей на других языках.[9]

Вместе с интервики-ссылками, у элементов Викиданных сразу появились и другие атрибуты (например, названия на поддерживаемых MediaWiki языках[10]). Традиционно в вики-проектах, базовая информация по теме статьи размещалась в инфобоксах[англ.], поэтому целью следующего этапа было дать пользователям возможность сохранять в элементах структурированную информацию (например, «Луна → родительское тело → Земля» или «Эверест → высота над уровнем моря → 8848,86 метр») и отображать её в форме привычных читателю инфобоксов в связанных статьях[11].

В сентябре 2015 года появилась возможность делать запросы к викиданным на языке SPARQL. Wikidata Query Service был реализован на основе open-source версии Blazegraph.[12]

В 2016 году разработчики анонсировали поддержку орфографических структур данных, в 2018 появилась возможность создания лексем и словоформ, а затем и указания их значений с помощью привязки соответствующего по смыслу элемента викиданных.[13]

Для упрощения моделирования и последующей валидации данных в мае 2019 года была введена поддержка для сохранения и совместного редактирования ShEx[англ.]-схем[14].

Также в 2019 году разработчики выпустили Wikibase[англ.] (движок Викиданных) в виде самостоятельного продукта.[15] В 2021 году были анонсированы планы по запуску Wikibase.Cloud — SaaS в рамках которого пользователю предоставляются предварительно настроенные компоненты WBStack: собственно Wikibase, сервис SPARQL запросов, и т. п.

В основу проекта были положены следующие принципы:

  1. Свободное редактирование
  2. Множественность точек зрения (в том числе, конфликтующих)
  3. Многоязычность

Эти принципы отличали викиданные от аналогичных проектов. Например, разработка МКБ-11 велась силами ограниченного набора специалистов, Freebase не поддерживал многоязычность своих сущностей, а Semantic MediaWiki затрудняло простановку ссылок на внешние источники.[16]

Сервис запросов

[править | править код]

Технически контент викиданных хранится в виде JSON-blobов в MySQL, поэтому готового инструмента для выполнения хоть сколь-нибудь сложных запросов в системе не было. Рассмотрев различные варианты включающие разработку специализированного софта, применения готовых NoSQL-продуктов и графовых баз данных, было решено остановиться на последнем и внедрить Blazegraph. Данные из внутреннего json-представления элементов преобразуются в RDF и синхронизируются с внутренним хранилищем Blazegraph, доступным только для чтения. В качестве языка запросов используется SPARQL версии 1.1, с помощью синтаксической конструкции SERVICE можно обратиться как к специфичным для викиданных расширениям, так и запросить дополнительную информацию у некоторых сторонних источников. Таймаут на выполнение запросов составляет 60 секунд, если выполнение запрос не успевает завершится, он прерывается с ошибкой.[17]

Ключевым элементом сервиса является API, в который можно передать запрос и получить в требуемом формате таблицу с результатом. Для интерактивной работы существует веб-редактор запросов c подсветкой синтаксиса и автодополнением. Результаты выполнения запросов могут визуализироваться как в табличной форме, так и в виде карты, столбцовой диаграммы, галереи изображений и т. д.[17]

Контент-модель

[править | править код]
Терминология утверждений в Викиданных

Утверждения — это способ хранения любой информации об известном элементе. Формально, они состоят из пар ключ-значение, которые хранят соответствие свойства (например, «автор», или «дата публикации») с одним или несколькими значениями (например, «Артур Конан-Дойл» или «1902»). Например, неформальное утверждение «молоко — белое» (англ. milk is white) было бы закодировано с помощью утверждения, которое хранит пару. Это пара, состоящая из свойства P462 (цвет) — https://www.wikidata.org/wiki/Property:P462 со значением Q23444 (белый) https://www.wikidata.org/wiki/Q23444 в записи Q8495 (молоко) https://www.wikidata.org/wiki/Q8495.

Утверждения могут устанавливать отношение между свойством и более чем одним значением. Например, свойство «occupation» (род занятий) для Марии Кюри могло бы быть связано со значениями «физик» и «химик», чтобы отразить факт того, что она занималась и тем, и другим[18].

Значения могут быть разных типов, включая другие записи Викиданных, строки, числа или файлы с фото/видео. Свойства предписывают, с какими типами значений их можно связывать. Например, свойство «официальный сайт» может быть поставлено в соответствие только со значениями типа «URL»[19]. Также, свойства могут определять более сложные правила относительно их предполагаемого использования. Эти правила называются «ограничения» (англ. constraints). Например, свойство «столица» включает в себя «ограничение на единственное значение») (англ. single value constraint), отражающее тот факт, что у любой территории (как правило) есть только одна столица. Ограничения трактуются скорее как подсказки, чем как нерушимые правила[20].

При желании, для уточнения значения утверждения могут использоваться квалификаторы (англ. qualifiers). Они предоставляют дополнительную информацию в контексте данного утверждения. Например, свойство «население» может быть расширено квалификатором «по состоянию на 2011 год». Также утверждения могут снабжаться ссылками, указывающими на подтверждающий утверждение контент[21].

Сообщество

[править | править код]

В августе 2019 года сообщество викиданных насчитывало порядка 20 тысяч зарегистрированных активных учетных записей.[22]. Исследователи обычно делят их на три группы: незарегистрированные пользователи, зарегистрированные люди и боты[23]. При этом граница между людьми и ботами достаточно условна в связи с массовым использованием инструментов типа QuickStatements, автоматизирующих выполнение рутинных правок без программирования[24].

Статистически, уравновешенный вклад и зарегистрированных участников-людей и ботов повышает качество данных в проекте, а вклад незарегистрированных участников (составляющий 0,5 % от всех правок[25]) — снижает.[26] Порядка 2 % вклада анонимных участников имеют признаки автоматизированных правок, выполненных с использованием средств автоматизации. Это может быть проблемой для проектов, использующих викиданные, поскольку даже если небольшая доля подобных правок является вандализмом, репутация викиданных как относительно надежного источника структурированной информации может быть надолго подорвана.[27]

Как правило, большую часть пользователи времени занимаются одним видом деятельности, относительно редко переключаясь на другие (например те, кто добавляет в элементы интервики-ссылки, редко заполняют метки/описания, и наоборот)[23]. С течением «вики-жизни» пользователей, предпочитаемый вид деятельности может меняться, обычно в сторону задач, требующих навыков инженерии знаний (например, не просто добавления тривиальных фактов, а выделение супер/суб-классов элементов)[28]. Для выполнения некоторых подобных онтологических задач (например, для создание свойств) требуются специальные права доступа и процесс их получения может рассматриваться в качестве «вики-карьеры»[23].

Ботами называются программы, которые автоматизируют повторяющиеся или рутинные задачи, которые люди считают трудоемкими и утомительными. Они управляются и контролируются волонтерами («ботовладельцами»)[22]. После нескольких случаев крайне неудачных действий ботов в OpenStreetMap и англоязычной википедии, в последней появился процесс предварительного обсуждения заявок на получение статуса бота и последующего её утверждения. В викиданных существует аналогичный процесс, тем не менее, порядка 3 % правок, совершенных от имени «живых» участников, выполняется с применением автоматизации[27].

Сообщество викиданных положительно относится к ботам, выстроив продуктивный процесс взаимодействия в весьма короткий срок.[22] В 2014 году более 80 % правок в викиданных совершались ботами,[23][25] что позволило ряду исследователей назвать этот проект «социотехнической системой»[29]. При этом, если в языковых разделах википедии боты преимущественно выполняют примитивные технические задачи, то в викиданных — в основном обновление содержательной информации.[22] Около 50 % правок приходится на модификацию утверждений и ещё порядка 30 % — на изменение меток, описаний и альтернативных названия.[23]

Исследователи[30] идентифицируют три основные проблемы, связанные со значительным объемом бото-правок в викиданных:

  1. Соотношение объема информации в викиданных (импортированных ботами) и числа участников-людей приводит к тому что Закон Линуса в этом проекте не работает.
  2. Набор источников, используемых ботами, значительно уже нежели набор источников, используемых людьми.[31] Комбинация этого фактора и ещё более ограниченного числа ботовладельцев может быть серьезной угрозой для представления широкого спектра точек зрения в викиданных.
  3. Огромный процент бото-правок в совокупности с многоязычностью членов сообщества может ограничивать участие существующих и приток новых пользователей в проект. Косвенным подтверждением этого тезиса является то, что на октябрь 2018 года лишь 10787 (из 45 миллионов) элементов викиданных имели страницы обсуждения.

Сообщества других вики-проектов

[править | править код]

Почти сразу после того, как появилась техническая возможность отображать утверждения, сообщество крупнейшего раздела википедии обсуждало возможность показа служебного идентификатора IMDb. Решили что информация по прежнему будет показываться только из самой статьи, но в случае несовпадения идентификатора с тем, что есть в викиданных, она будет внесена в специальную служебную категорию для последующей выверки[32]. С тех пор пропоненты и оппоненты использования викиданных продолжают дискуссию[33]. В частности для удовлетворения требований последних по максимальной независимости их проектов от «внешних проектов», выработан принцип, который требует возможность переопределить значение любого элемента инфобокса внутри текста вики-статьи, подавив таким способом его отображение из викиданных[11].

Примечания

[править | править код]
  1. Wikidata’s tenth anniversary has been celebrated in Tamale, Ghana, by the Dagbani Wikimedians User Group and two of its sister communities — 2022.
  2. Data Revolution for Wikipedia. Wikimedia Deutschland (30 марта 2012). Дата обращения: 11 сентября 2012. Архивировано из оригинала 11 сентября 2012 года.
  3. Викиданные: Введение. Дата обращения: 8 декабря 2015. Архивировано 5 марта 2016 года.
  4. Färber M., Bartscherer F., Menne C., Rettinger A. Linked data quality of DBpedia, Freebase, OpenCyc, Wikidata, and YAGO (англ.) // Semantic Web: Interoperability, Usability, Applicability / P. Hitzler, K. JanowiczIOS Press, 2017. — Vol. 9, Iss. 1. — P. 77—129. — ISSN 1570-0844; 2210-4968; 1570-0844doi:10.3233/SW-170275
  5. Ringler D., Paulheim H. One Knowledge Graph to Rule Them All? Analyzing the Differences Between DBpedia, YAGO, Wikidata & co (англ.) // KI 2017: Advances in Artificial Intelligence: 40th Annual German Conference on AI, Dortmund, Germany, September 25–29, 2017, ProceedingsSpringer Nature Switzerland AG, 2017. — P. 366—372. — ISBN 978-3-319-67190-1, 978-3-319-67189-5 — doi:10.1007/978-3-319-67190-1_33
  6. Tanon T. P., Vrandečić D., Schaffert S., Steiner T., Pintscher L. From Freebase to Wikidata: The Great Migration (англ.) // Proceedings of the 25th International Conference on World Wide Web — 2016. — P. 1419—1428. — 10 p. — ISBN 978-1-4503-4143-1doi:10.1145/2872427.2874809
  7. Yu L. A Developer’s Guide to the Semantic Web (англ.)Springer Berlin Heidelberg, 2011. — P. 551. — ISBN 978-3-642-15969-5doi:10.1007/978-3-642-15970-1
  8. Liu Z., Han X. Deep Learning in Knowledge Graph (англ.) — 2018. — P. 117—145. — doi:10.1007/978-981-10-5209-5_5
  9. Burgstaller-Muehlbacher S., Waagmeester A., Mitraka E., Turner J., Putman T., Leong J., Naik C., Pavlidis P., Schriml L., Good B. M. et al. Wikidata as a semantic framework for the Gene Wiki initiative (англ.) // DatabaseOUP, University of Oxford, 2016. — Vol. 2016. — P. baw015. — ISSN 1758-0463doi:10.1093/DATABASE/BAW015PMID:26989148
  10. Kaffee L., Piscopo A., Vougiouklis P., Carr L., Pintscher L. A Glimpse into Babel: An Analysis of Multilinguality in Wikidata (англ.) // Proceedings of the 13th International Symposium on Open Collaboration — 2017. — 5 p. — ISBN 978-1-4503-5187-4doi:10.1145/3125433.3125465
  11. 1 2 Sáez T., Hogan A. Automatically Generating Wikipedia Info-boxes from Wikidata (англ.) // (unknown type) — 2018. — 8 p. — doi:10.1145/3184558.3191647
  12. Bielefeldt A., Gonsior J., Krötzsch M. Practical Linked Data Access via SPARQL: The Case of Wikidata (англ.) — 2018. — 10 p.
  13. Nielsen F. Å. Ordia: A Web application for Wikidata lexemes (англ.) // The Semantic Web: ESWC 2019 Satellite Events: ESWC 2019 Satellite Events, Portorož, Slovenia, June 2–6, 2019, Revised Selected Papers / P. Hitzler, S. Kirrane, O. Hartig, N. Manfrin, M. Vidal, M. Maleshkova, S. Schlobach, K. Hammar, K. Hose, R. VerborghSpringer Nature Switzerland AG, 2019. — P. 141—146. — 6 p. — ISBN 978-3-030-32326-4, 978-3-030-32327-1 — doi:10.1007/978-3-030-32327-1_28
  14. Nielsen F. Å., Thornton K., Gayo J. E. L. Validating Danish Wikidata lexemes (англ.) // Proceedings of the Posters and Demo Track of the 15th International Conference on Semantic Systems / M. Alam, R. Usbeck, T. Pellegrini, H. Sack, Y. Sure-Vetter — 2019. — 5 p.
  15. Diefenbach D., Wilde M. D., Wilde M. D., Alipio S. Wikibase as an Infrastructure for Knowledge Graphs: The EU Knowledge Graph (англ.) // The Semantic Web – ISWC 2021 / A. Hotho, E. Blomqvist, S. Dietze, A. Fokoue, P. Barnaghi, A. Haller, M. Dragoni, H. Alani — 2021. — P. 631—647. — 17 p. — ISBN 978-3-030-88360-7doi:10.1007/978-3-030-88361-4_37
  16. Vrandečić D., Krötzsch M. Wikidata: a free collaborative knowledgebase (англ.) // Communications of the ACM — New York: Association for Computing Machinery, 2014. — Vol. 57, Iss. 10. — P. 78—85. — 8 p. — ISSN 0001-0782; 1557-7317doi:10.1145/2629489
  17. 1 2 Malyshev S., Malyshev S., Krötzsch M., Gonsior J., Bielefeldt A., González L., Krötzsch M., Gonsior J., Bielefeldt A. Getting the Most out of Wikidata: Semantic Technology Usage in Wikipedia’s Knowledge Graph (англ.) // The Semantic Web – ISWC 2018: 17th International Semantic Web Conference, Monterey, CA, USA, October 8–12, 2018, Proceedings, Part II / D. Vrandečić, K. Bontcheva, M. C. S. Figueroa, V. Presutti, I. Celino, M. Sabou, L. Kaffee, E. Simperl — 2018. — P. 376—394. — doi:10.1007/978-3-030-00668-6_23
  18. Help:Statements. Дата обращения: 26 мая 2019. Архивировано 25 марта 2019 года.
  19. Help:Data type. Дата обращения: 26 мая 2019. Архивировано 23 марта 2019 года.
  20. Help:Property constraints portal. Дата обращения: 26 мая 2019. Архивировано 1 июня 2019 года.
  21. Help:Sources. Дата обращения: 26 мая 2019. Архивировано 17 апреля 2019 года.
  22. 1 2 3 4 Farda-Sarbas M., Zhu H., Nest M. F., Müller-Birn C. Approving automation: analyzing requests for permissions of bots in wikidata (англ.) — 2019. — doi:10.1145/3306446.3340833
  23. 1 2 3 4 5 Müller-Birn C., Karran B., Lehmann J., Luczak-Rösch M. Peer-production system or collaborative ontology engineering effort: what is Wikidata? (англ.) // Proceedings of the 11th International Symposium on Open Collaboration — 2015. — ISBN 978-1-4503-3666-6doi:10.1145/2788993.2789836
  24. Turki H., Shafee T., Taieb M. A. H., Aouicha M. B., Vrandečić D., Das D., Hamdi H. Wikidata: A large-scale collaborative ontological medical database (англ.) // Journal of Biomedical Informatics / E. H. ShortliffeElsevier BV, 2019. — Vol. 99. — P. 103292. — 13 p. — ISSN 1532-0464; 1532-0480; 0010-4809; 1090-2368doi:10.1016/J.JBI.2019.103292PMID:31557529
  25. 1 2 Steiner T. Bots vs. Wikipedians, Anons vs. Logged-Ins (Redux): A Global Study of Edit Activity on Wikipedia and Wikidata (англ.) // OpenSym '14: Proceedings of The International Symposium on Open CollaborationACM, 2014. — ISBN 978-1-4503-3016-9doi:10.1145/2641580.2641613arXiv:1402.0412
  26. Piscopo A., Phethean C., Simperl E. What Makes a Good Collaborative Knowledge Graph: Group Composition and Quality in Wikidata (англ.) // Social Informatics: 9th International Conference, SocInfo 2017, Oxford, UK, September 13-15, 2017, Proceedings, Part I — 2017. — P. 305—322. — ISBN 978-3-319-67217-5, 978-3-319-67216-8 — doi:10.1007/978-3-319-67217-5_19
  27. 1 2 Hall A., Terveen L., Halfaker A. Bot Detection in Wikidata Using Behavioral and Other Informal Cues (англ.) // Proceedings of the ACM on Human-Computer InteractionACM, 2018. — Vol. 2, Iss. CSCW. — P. 1—18. — ISSN 2573-0142doi:10.1145/3274333
  28. Piscopo A., Simperl E. Who Models the World?: Collaborative Ontology Creation and User Roles in Wikidata (англ.) // Proceedings of the ACM on Human-Computer Interaction / A. Monroy-Hernández — 2018. — Vol. 2, Iss. CSCW. — P. 1—18. — 18 p. — doi:10.1145/3274410
  29. Niederer S., Dijck J. v. Wisdom of the crowd or technicity of content? Wikipedia as a sociotechnical system (англ.) // New Media & SocietySAGE Publishing, 2010. — Vol. 12, Iss. 8. — P. 1368—1387. — ISSN 1461-4448; 1461-7315doi:10.1177/1461444810365297
  30. Piscopo A. Wikidata: A New Paradigm of Human-Bot Collaboration? (англ.) — 2018. — arXiv:1810.00931
  31. Piscopo A., Kaffee L., Phethean C., Simperl E. Provenance information in a collaborative knowledge graph: an evaluation of Wikidata external references (англ.) // The Semantic Web – ISWC 2017: 16th International Semantic Web Conference, Vienna, Austria, October 21–25, 2017, Proceedings, Part I — 2017. — P. 542—558. — 17 p. — ISBN 978-3-319-68288-4, 978-3-319-68287-7 — doi:10.1007/978-3-319-68288-4_32
  32. Vrandečić D. The Rise of Wikidata (англ.) // IEEE Intelligent Systems / J. Hendler, E. SimperlIEEE, 2013. — Vol. 28, Iss. 4. — P. 90—95. — 6 p. — ISSN 1541-1672; 0885-9000; 1094-7167; 1941-1294doi:10.1109/MIS.2013.119
  33. Ford H. Rise of the Underdog (англ.) // Wikipedia @ 20: Stories of an Incomplete Revolution / M. R. J. Joseph, J. KoernerThe MIT Press, 2019. — 376 p. — ISBN 978-0-262-53817-6doi:10.7551/MITPRESS/12366.003.0017