Слабоструктурированные данные — Википедия

Слабоструктури́рованные да́нные (полуструктурированные или плохо структурированные данные) — это форма структурированных данных, не соответствующая строгой структуре таблиц и отношений в моделях реляционных баз данных, тем не менее эта форма данных содержит теги и другие маркеры для отделения семантических элементов и для обеспечения иерархической структуры записей и полей в наборе данных^[1]. Таким образом, такой вид данных можно назвать бессхемным (schemaless), а структуру — самоописываемой.

В слабоструктурированных данных сущности, принадлежащие одному и тому же классу, могут иметь разные атрибуты, даже если классы принадлежат к одной группе. Порядок атрибутов также не важен.

Слабоструктурированные данные становятся важным объектом для исследований по нескольким причинам^[2]:

к таким источникам данных, как Веб, удобно обращаться как к базам данных, но Веб нельзя «уложить» в прокрустово ложе какой-либо определённой схемы данных;
желательно иметь предельно гибкий формат для обмена данными между разными базами данных;
даже при работе со структурированными данными может быть удобно представлять их в виде слабоструктурированных данных с целью навигации по ним.

Таким образом, слабоструктурированные данные встречаются всё чаще, поскольку с развитием интернета для полнотекстовых документов и баз данных требуется формат данных, выступающий в качестве информационного посредника. Слабоструктурированные данные часто можно встретить в объектно-ориентированных базах данных.

Типы слабоструктурированных данных

XML^[3] и другие языки разметки, email и сообщения в форматах EDI — всё это примеры слабоструктурированных данных.

Модель обмена данных (OEM)^[4] предшествовала XML и являлась самоописываемой структурой данных.

Примечания

↑ Tutorial on semi-structured data by Peter Buneman from Symposium on Principles of Database Systems, 1997 [1] Архивная копия от 17 мая 2009 на Wayback Machine
↑ Peter Buneman, Semistructured data Архивная копия от 13 мая 2013 на Wayback Machine, Proceedings of the sixteenth ACM SIGACT-SIGMOD-SIGART symposium on Principles of database systems, p.117-121, May 11-15, 1997, Tucson, Arizona, United States
↑ The Penn database group has semi-structured and XML data project (неопр.). Дата обращения: 12 марта 2012. Архивировано 2 ноября 2013 года.
↑ Stanford Universities Lore DBMS (неопр.). Дата обращения: 12 марта 2012. Архивировано 6 августа 2012 года.

[1] Tutorial on semi-structured data by Peter Buneman from Symposium on Principles of Database Systems, 1997 [1] Архивная копия от 17 мая 2009 на Wayback Machine

[2] Peter Buneman, Semistructured data Архивная копия от 13 мая 2013 на Wayback Machine, Proceedings of the sixteenth ACM SIGACT-SIGMOD-SIGART symposium on Principles of database systems, p.117-121, May 11-15, 1997, Tucson, Arizona, United States

[3] The Penn database group has semi-structured and XML data project (неопр.). Дата обращения: 12 марта 2012. Архивировано 2 ноября 2013 года.

[4] Stanford Universities Lore DBMS (неопр.). Дата обращения: 12 марта 2012. Архивировано 6 августа 2012 года.

[1]

[2]

[3]

[4]