Онтологія CIDOC CRM

Одним із найважливіших елементів інфраструктури даних та знань у сфері культурної спадщини у загальносвітовому контексті сьогодні є Концептуальна еталонна модель (Conceptual Reference Model, CIDOC CRM).

CIDOC CRM — це формалізована онтологія, що містить визначення семантичних конструкцій для опису об’єктів (рухомих, нерухомих, нематеріальних) і процесів у царині культурної спадщини.

Робота над CIDOC CRM була розпочата у 1994 році. Станом на сьогодні документ визнаний міжнародним стандартом (ISO 21127:2014, «A reference ontology for the interchange of cultural heritage information»). Стандарт розвивається та підтримується професійною спільнотою на базі Міжнародного комітету з документації (International Committee for Documentation, CIDOC) Міжнародної ради музеїв (International Council of Museums, ІСОМ).

Головна мета створення CIDOC CRM — уможливити об’єднання даних та обмін ними між різнорідними джерелами інформації у сфері культурної спадщини. Потенціал моделі полягає у її надінституційності, абстрагованості від будь-якого специфічного локального контексту та способу прикладної реалізації. Водночас модель придатна як для розуміння людиною, так і для машинної обробки. Зокрема, онтологія CIDOC CRM реалізована у машинописних форматах RDFS та OWL-DL.

Структурно CIDOC CRM складається з ієрархії класів та властивостей, що пов’язані між собою за певними правилами. Актуальна опублікована версія документа містить визначення близько 90 класів та 150 властивостей.

У розумінні CIDOC CRM клас — це категорія одиниць, об’єднаних однією або ж більшою кількістю спільних рис. Ці спільні риси власне і є критерієм ідентифікації елементів, що належать певному класу. Сума цих рис називається суттю цього класу. Одиниця, що належить до класу, називається інстанцією (екземпляром, утіленням) цього класу. Клас асоціюється з відкритою множиною інстанцій реального життя. «Відкритою» у тому сенсі, що знати про всі інстанції класу у світі загалом — поза нашими можливостями. Клас грає роль, аналогічну іменникові в граматиці: він є цілком самодостатнім, може бути визначений без посилань на жодні інші конструкти.

Кожен клас у CIDOC CRM позначається унікальним ідентифікатором, що складається з літери «E» (від англ. Entity — сутність) та числа. Наприклад, E19 Physical Object (Фізичний об’єкт).

Властивості визначають специфічні зв’язки (відношення) між двома класами. Властивість можна порівняти з дієсловом у граматиці. Вона має бути визначена з посиланням і на її домен, і на ранг, які є граматичними аналогами підмета і додатка. Вибір класу в якості домену є довільним так само, як довільним є вибір між активним і пасивним станом у граматиці. Іншими словами, властивість може інтерпретуватися в обох напрямках двома різними, але пов’язаними інтерпретаціями. Наприклад, у дзеркальних твердженнях «повітряна кулька має колір червоний» та «червоний є кольором повітряної кульки» фактично фігурує одна властивість у двох інтерпретаціях, що обумовлені кутом зору.

Властивості CIDOC CRM позначаються унікальним ідентифікатором, що складається з літери «P» (від англ. Property — властивість) та числа. Згідно з CIDOC CRM властивість сама може мати властивості (бути доменом), які пов’язані з іншими класами. Такі властивості властивостей позначаються за допомогою базового ідентифікатора, крапки та додаткового числа, наприклад, P102.1.

Загалом елементи CIDOC CRM можна поділити на дві основні групи. Перша включає базові класи та властивості, що описують поняття предметної області — від найзагальніших до конкретних (наприклад такі, що описують конкретні процеси обліку та управління об’єктами культурної спадщини, тощо).
До другої групи можна віднести елементи, необхідні для внутрішньої організації самої онтологічної моделі, наприклад, класи E59 Primitive Value, E62 String, E61 Time Primitive, E60 Number.

Найзагальнішим у CIDOC CRM є клас E1 Entity — Сутність — абстрактне поняття, що у дискурсі цієї концептуальної моделі виражає всі явища світу. Всі інші класи (окрім E59 Primitive Value та його нащадків) є похідними від цієї базової сутності, її прямою або опосередкованою спеціалізацією. Детальніше див. загальну схему ієрархії класів CIDOC CRM.

У цій ієрархії можна виділити такі групи класів:

  • класи для представлення матеріальних об’єктів (наприклад, E19 Physical Object, E24 Physical Man-Made Thing);
  • класи для представлення нематеріальних об’єктів (наприклад, E28 Conceptual Object);
  • класи для представлення осіб, об’єднань та організацій (E39 Actor, E74 Group, E40 Legal Body);
  • класи для представлення подій та процесів (наприклад, E2 Temporal Entity, E4 Period, E5 Event, E7 Activity, E65 Creation, E11 Modification, E12 Production, E8 Acquisition);
  • клас для представлення місця в фізичному просторі (E53 Place).

Будь-яка інформація про об’єкт культурної спадщини може бути представлена за допомогою понять (класів та властивостей), визначених CIDOC CRM.
Наприклад, будь-який конкретний об’єкт культурної спадщини в контексті його побутування може бути поіменований, тобто мати назву (або навіть назви, що могли фігурувати у різних контекстах). Це найменування предмета також може бути використано в контексті збереження та адміністрування об’єкта як один з атрибутів для його ідентифікації, наприклад, у відповідних формах облікової документації. Однак навіть такий, на перший погляд простий атрибут як «Найменування об’єкта» з точки зору формалізації даних доцільно розглядати як комплекс атомарних елементів: «значення», «тип значення», «мова значення», що певним чином пов’язані між собою. Наприклад, абстрактна модель представлення інформації про назву об’єкта за допомогою класів і властивостей CIDOC CRM може бути виражена наступним чином (див. рис. 2).
 

Схема представлення атрибута «Найменування об’єкта» через класи та властивості CIDOC CRMТут і далі подвійною стрілкою зображується зв’язок типу «є» (is a), що відображає ієрархію наслідування. Зокрема, клас E71 Man-Made Thing, який уособлює рукотворні об’єкти, є нащадком класу E70 Thing, і так далі, аж до найзагальнішого класу верхнього рівня (E1 Entity). Відтак для екземпляра класу E71 справедливим буде твердження, що він водночас є інстанцією класу E70 і всіх інших батьківських класів. Наслідування є надзвичайно корисним для об’єднання різнорідних наборів даних зі спеціалізованих предметних областей, адже дозволяє знайти «точку перетину» між ними на рівні батьківських класів, абстракцій вищого рівня.

Одинарна стрілка демонструє взаємозв’язки (відношення) між класами, тобто властивості. Зокрема, запропонована схема передбачає, що рукотворний об’єкт може мати назву (назви). Своєю чергою кожна назва (E35 Title) може бути виражена певною мовою (E56 Language), а кожен екземпляр зв’язку рукотворного об’єкта та назви може бути класифікований (пов’язаний) із екземпляром класу E55 Type.

Іншим прикладом може бути модель представлення класифікації об’єкта культурної спадщини. Зокрема, клас E19, що уособлює фізичні об’єкти, через властивість P2 може бути пов’язаний із класом E55 (див. рис. 3). Важливо зауважити, що екземпляри класу E55 можуть посилатися на інші екземпляри цього ж класу через зв’язок P127 has broader term / has narrower term (має ширше визначення / має вужче визначення). У такий спосіб передбачена можливість побудови ієрархічних словників (тезаурусів), у тому числі зовнішніх — для уніфікації опису музейних предметів.
 

Схема представлення даних про класифікацію об’єкта засобами CIDOC CRMПодібним чином може бути представлена інформація про матеріали, з яких складається об’єкт, адже відповідно до онтології CIDOC CRM клас E57 Material є спеціалізацією класу E55 Type.
 

Схема представлення атрибута «матеріал» засобами CIDOC CRMВажливою особливістю CIDOC CRM є подієцентричність — орієнтація на подію як головний стрижень для об’єднання інших сутностей. Цим забезпечується можливість використовувати класи та властивості цієї онтології для формалізованого опису об’єктів у контексті подій та процесів (історичних, облікових тощо).
 

Подієцентрична організація даних відповідно до CIDOC CRM


Для опису подій (процесів) у CIDOC CRM передбачений комплекс класів та пов’язаних із ними властивостей — від найзагальнішого класу E2 Temporal Entity до цілої низки його нащадків — специфічних сутностей для представлення конкретних типів подій (процедур тощо): E4 Period, E5 Event, E7 Activity, E11 Modification, E12 Production, E13 Attribute Assignment, E14 Condition Assessment, E15 Identifier Assignment, E16 Measurement, E17 Type Assignment, E63 Beginning of Existence, E64 End of Existence тощо.
Наприклад, наступна модель демонструє організацію відомостей про об’єкт культурної спадщини в контексті його створення (клас E12 Production). Зокрема, саме через зв’язок з темпоральним класом E12 фіксуються всі пов’язані зі створенням об’єкта відомості: місце створення, особи, які брали участь у створенні, тощо.
 

Схема представлення атрибутів у контексті опису події створення об’єктаНа основі CIDOC CRM можна будувати моделі будь-якого рівня складності та представляти їх у вигляді графів. Разом з тим, наскільки б розгалуженою не була певна модель дійсності, її завжди можна представити як набір простих атомарних тверджень-триплетів у форматі суб’єкт – властивість – об’єкт, де суб’єкт та об’єкт — це класи, а властивість визначає зв’язок між ними. Наприклад, набір даних для визначення найменування об’єкта, графічна модель якого представлена на рис. 2, також може бути виражений як набір тверджень:

  • Предмет (екземпляр класу E71 Man-Made Thing) має назву (властивість P102 has title) «Назва предмета» (екземпляр класу E35 Title);
  • Назва предмета виражена за допомогою мови (властивість P72 has language) «мова» (екземпляр класу E56 Language);
  • Назва предмета має тип назви (властивість P102.1 has type) «тип» (екземпляр класу E55 Type).

Кожне твердження є незалежним від іншого. Їх сукупність дозволяє описати певний об’єкт (чи процес) реального світу із необхідним рівнем деталізації. Водночас, згідно з концепцією «відкритого світу», на якій зазвичай будуються онтології, цей набір тверджень апріорі не є вичерпним. Ми завжди можемо додати нове твердження у разі необхідності, появи нових фактів, інтерпретацій тощо. Додавання нового твердження здатне розширити (уточнити) уявлення про предмет дослідження, динамічно вплинути на результат аналізу даних.

До речі, додавати можна не лише факти про певні об’єкти, екземпляри класів, а й твердження про саму модель, нові класи та властивості. Завдяки цьому CIDOC CRM, як і будь-яка інша онтологія, придатна до розширення. Зокрема, сьогодні активно створюються та розвиваються тематичні розширення CIDOC CRM, що дозволяють деталізувати та уточнити поняття базової моделі в межах спеціалізованих галузей: археологічні дослідження та документування їх результатів (CRMarchaeo), робота з архітектурними пам’ятками (CRMba) та писемними джерелами (CRMtex), формалізація наукового апарату та документування результатів наукових спостережень (CRMsci) тощо. Сумісність похідних моделей з ядром CIDOC CRM означає, що дані, структуровані відповідно до правил, описаних у розширеннях, повинні також лишатись дійсними на рівні загальних понять базового ядра онтології.

Спектр практичного застосування CIDOC CRM та похідних моделей доволі широкий. На концептуальному рівні онтологія може бути використана як метамова для моделювання, зокрема, в контексті створення баз даних, систем агрегації та презентації інформації. Формалізований опис класів та властивостей може слугувати спільною мовою для фахівців предметної області та розробників програмних продуктів.

Також існує досвід застосування CIDOC CRM у якості бази для моделювання прикладних стандартів метаданих, що покликані забезпечувати електронну взаємодію в окремих секторах культурної спадщини (LIDO, CARARE, CODEUA).

Водночас найприроднішим є використання CIDOC CRM для роботи з даними на засадах Semantic Web та Linked Data. Графова природа онтології, сумісність з RDF, наявність реалізацій засобами RDFS та OWL-DL дозволяє безпосередньо використовувати CIDOC CRM для побудови графових баз даних, підтримки SPARQL-точок доступу тощо. І нині, з розвитком інформаційних технологій, у розпорядженні інституцій пам’яті для цього з’являється дедалі ширший вибір доступних та зручних інструментів.

Матеріал зі зібрки: Цифра в музеї. Linked Data / упор. Владислав Піоро. — Київ: Видавець ФОП Лопатіна О.О., 2019. — 104 с.

прямуємо разом