Форум FAIR

Додано: **П'ят серпня 15, 2025 3:41 pm**

Формати даних RDF та LOD
Як і навіщо використовувати RDF/Linked Open Data в дослідницьких проектах

-----------------------------------------
Що таке RDF і LOD
RDF (Resource Description Framework) — модель представлення знань у вигляді трієк:

Код: Виділити все

суб’єкт — предикат — об’єкт

.
Linked Open Data (LOD) — підхід публікувати відкриті дані як взаємопов’язані графи через стабільні URI.

Ключові терміни:

URI/IRI — глобальний ідентифікатор ресурсу (людина, стаття, набір даних, файл).
Трійка — факт у формі "хто/що" — "якою властивістю" — "значення/інший ресурс".
Граф — множина трійок; може зберігатись у triplestore.
Онтологія/словник — набір класів і властивостей (напр. DCAT, schema.org, PROV-O).

-----------------------------------------
Навіщо це проєктам

FAIR: краща знаходжуваність і інтероперабельність (стандартизовані метадані).
Зв’язність: посилання на авторів (ORCID), організації (ROR), публікації (DOI).
Машинозчитуваність: агрегатори (OpenAIRE/EOSC/Google Dataset Search) краще індексують.
Запити: SPARQL дозволяє ставити складні питання до графа.
Переносимість: різні серіалізації, один смисл.

-----------------------------------------
Серіалізації RDF (формати файлів)

Turtle (.ttl) — читабельний для людини.
JSON-LD (.jsonld) — JSON зі смислом, зручний для веб-сторінок.
RDF/XML (.rdf) — історично перший.
N-Triples/N-Quads — прості, зручні для імпорту великих обсягів.

-----------------------------------------
Популярні словники/стандарти

DCAT — опис наборів/каталогів даних.
Dublin Core (DCTERMS) — базові поля (назва, автор, опис, дата).
schema.org — Dataset, Person, Organization для веб-пошуку.
PROV-O — походження/трасування результатів.
SKOS — словники термінів/тезауруси.
RDFS/OWL — моделювання класів/обмежень.
SHACL — валідація якості RDF-графа.

-----------------------------------------
Мінімальні приклади

1) Turtle (DCAT + DCTERMS)

Код: Виділити все

@prefix dcat: <http://www.w3.org/ns/dcat#> .
@prefix dct:  <http://purl.org/dc/terms/> .

<https://example.org/dataset/air-2025>
    a dcat:Dataset ;
    dct:title "Якість повітря, 2025"@uk ;
    dct:identifier "https://doi.org/10.1234/abcd" ;
    dct:license <https://creativecommons.org/licenses/by/4.0/> ;
    dcat:distribution <https://example.org/dataset/air-2025#dist-csv> .

<https://example.org/dataset/air-2025#dist-csv>
    a dcat:Distribution ;
    dct:format "text/csv" ;
    dcat:accessURL <https://example.org/files/air-2025.csv> .

2) JSON-LD (schema.org Dataset)

Код: Виділити все

{
  "@context": "https://schema.org/",
  "@type": "Dataset",
  "@id": "https://doi.org/10.1234/abcd",
  "name": "Якість повітря, 2025",
  "description": "Добові агрегати по містах України за 2025 рік",
  "license": "https://creativecommons.org/licenses/by/4.0/",
  "creator": { "@type": "Person", "name": "Іваненко І." },
  "distribution": [{
    "@type": "DataDownload",
    "encodingFormat": "text/csv",
    "contentUrl": "https://example.org/files/air-2025.csv"
  }]
}

-----------------------------------------
Як публікувати RDF/LOD на практиці

URI: надайте стабільні, “дереференсовані” посилання (щоб відкривались у браузері).
Контент-перемовини: за HTTP Accept віддавайте HTML або RDF (JSON-LD/Turtle).
SPARQL endpoint: для запитів користувачів/сервісів.
VoID/DCAT описи: декларації про набір/каталог.
Ліцензія: вказувати URI ліцензії (CC-BY/CC0 тощо).

Triplestores/інструменти: Apache Jena/Fuseki, Virtuoso, GraphDB, Blazegraph; OpenRefine (RDF extension), RDFLib (Python), Jena (Java), pySHACL/SHACL для валідації.

-----------------------------------------
Як перетворити CSV/БД у RDF

CSVW — метадані для табличних даних → RDF.
R2RML — мапінг реляційних БД у RDF.
TARQL — CONSTRUCT SPARQL поверх CSV.
OpenRefine — інтерактивний мапінг у RDF.

-----------------------------------------
LOD і 5-зіркові дані (Тім Бернерс-Лі)

Код: Виділити все

★  опублікувати дані у відкритій ліцензії
★★ опублікувати у машинозчитуваному форматі (напр. CSV)
★★★ використовувати відкриті формати (CSV/JSON)
★★★★ використовувати URI для ідентифікації сутностей
★★★★★ пов’язати ваші URI з іншими URI (ORCID, ROR, DOI, GeoNames…)

-----------------------------------------
Інтеграція з репозиторіями та агрегаторами

Багато репозиторіїв (зокрема інституційні) додають schema.org/JSON-LD на сторінках наборів — це покращує індексацію (OpenAIRE/EOSC/пошук).
Для каталогів публікуйте DCAT-фіди; для версій/походження — PROV-O і RelatedIdentifier (DOI → DOI).
У політиці цитування вказуйте конкретну версію (Version DOI або DOI + номер версії).

-----------------------------------------
Коли варто/не варто робити RDF
Варто: коли потрібні зв’язки між сутностями, інтероперабельність, агрегація різних джерел, запити SPARQL, інтеграція з ОДА/каталогами.
Не обов’язково: якщо дані — прості таблиці для локального аналізу й не планується інтеграція/зв’язування (залишайтесь на CSV/Parquet, додайте якісні метадані).

-----------------------------------------
Швидкий старт (чекліст)

Код: Виділити все

[ ] Визначте URI-схему (https://org.example/dataset/ID)
[ ] Оберіть серіалізацію: Turtle для публікації, JSON-LD для сторінок
[ ] Заповніть DCAT/DCTERMS поля (назва, опис, автор, ліцензія, формат, посилання)
[ ] Додайте посилання на ORCID/ROR/DOI
[ ] Згенеруйте VoID/DCAT-опис каталогу
[ ] (Опційно) Налаштуйте SPARQL endpoint / RDF dump
[ ] Перевірте якість SHACL-шейпами

-----------------------------------------
Запитання до спільноти

Які словники ви використовуєте найчастіше (DCAT, schema.org, PROV-O, SKOS)?
Чи є у вас приклади CSV→RDF мапінгів (CSVW/TARQL/R2RML), які можна повторно використати?
Які інструменти зручні для валідації RDF (SHACL) у ваших проектах?