Які інституційні політики потрібні, щоб забезпечити системне оновлення наборів даних (напр., для ЦККНО?

Опис вашого першого форуму.
Відповісти
admin
Адміністратор сайту
Повідомлень: 35
З нами з: Чет серпня 15, 2024 4:51 am

Які інституційні політики потрібні, щоб забезпечити системне оновлення наборів даних (напр., для ЦККНО?

Повідомлення admin »

🏛 Які інституційні політики потрібні, щоб забезпечити системне оновлення наборів даних (напр., для центрів колективного користування)?

Коротко: потрібен набір узгоджених політик і процедур, який охоплює ролі, графіки оновлень (SLA), якість, метадані, версіонування, автоматизацію та зберігання. Нижче — мінімальний “пакет політик” + шаблони.

-----------------------------------------
1) Управління та ролі
  • PI/Керівник напряму — затверджує політики, пріоритети оновлень.
  • Дата-стюард(и) — стандарти метаданих, перевірка FAIR, публікація/версії.
  • ІТ/Інфраструктура — доступи, CI/CD, бекапи, моніторинг.
  • QC/Аналітик якості — валідації, контрольні тести, схеми.
  • Автори/Оператори установки — готують і завантажують дані, описують зміни (changelog).
RACI (огляд):

Код: Виділити все

Завдання                                  | R (вик.) | A (відп.) | C (конс.) | I (інформ.)
------------------------------------------+----------+-----------+-----------+-----------
Оновлення наборів за графіком             | Автор    | PI        | Стюард    | Команда
Метадані/FAIR-перевірка                    | Стюард   | Стюард    | Автор     | ІТ
Версіонування + changelog                  | Автор    | Стюард    | ІТ        | Команда
Публікація/DOI/зв’язки                    | Стюард   | PI        | Автор     | ІТ
CI/CD, токени, бекапи, моніторинг         | ІТ       | ІТ        | Стюард    | Керівництво
Інциденти/відкликання/депрец.             | Стюард   | PI        | ІТ        | Юридичний від.
-----------------------------------------
2) Політика оновлень (SLA) та планування
  • Графіки: щотижня/щомісяця/щокварталу; для критичних датчиків — щодня.
  • SLA доступності: напр., “processed дані доступні не пізніше T+3 днів після збору”.
  • Оповіщення: канал для анонсів релізів і перерв (форум/пошта/Slack).
  • Ескалація: якщо SLA зірвано — відповідальний і терміни відновлення.
Приклад таблиці SLA:

Код: Виділити все

Набір/потік       | Періодичність | TTR оновлення | Відповідальний
------------------+---------------+---------------+----------------
Sensors_daily     | Щодня         | T+24h         | Оператор + Стюард
Microscopy_batch  | Щотижня       | T+3d          | Лаб. інженер
Omics_cohort      | Щокварталу    | T+10d         | Біоінформатик
-----------------------------------------
3) Політика якості (QA/QC) та валідації
  • Quality gates: схема/типи/діапазони, відсутні значення, дублікати, часові зсуви.
  • Автотести: скрипти перевірки перед публікацією (schema + статистичні тригери).
  • Контрольні суми: SHA256 для кожного файлу; файл SHA256SUMS.txt.
  • Аудит-лог: хто/коли завантажив, результати тестів (зберігати мін. 2 роки).
-----------------------------------------
4) Політика структури та метаданих
  • Єдина структура:

    Код: Виділити все

    data/{raw,interim,processed}/, code/, docs/, metadata/
  • Обов’язкові файли: README.md, CHANGELOG.md, file_manifest.csv, data_dictionary.csv, relationships.csv, LICENSE.txt.
  • Ідентифікатори: ORCID (автори), ROR (організація), грант, пов’язані DOI (RelatedIdentifier).
  • Подвійна мова описів (укр/англ) для кращої індексації.
Маніфест (приклад):

Код: Виділити все

file_path,role,description,derived_from,checksum_sha256,license
data/raw/batch_2025-08-15.csv,raw,"Сирі вимірювання",,e3b0...,CC-BY-4.0
data/processed/daily_2025-08-15.parquet,processed|core,"Добові агрегати","data/raw/batch_2025-08-15.csv",9c56...,CC-BY-4.0
docs/methods_v1.2.pdf,documentation,"Методика QC",,5d41...,CC-BY-4.0
-----------------------------------------
5) Політика версіонування та changelog
  • Семвер:

    Код: Виділити все

    MAJOR.MINOR.PATCH
    ; причини підвищення фіксувати у CHANGELOG.md.
  • Публікація = нова версія набору (опис релізу в метаданих версії).
  • Цитування: вказувати конкретну версію (Version DOI або DOI+Version X.Y).
  • Для великих змін — новий DOI і зв’язування з попередніми (RelatedIdentifier).
Шаблон запису:

Код: Виділити все

## [1.2.0] – YYYY-MM-DD
### Added
- ...
### Changed
- ...
### Fixed
- ...
-----------------------------------------
6) Політика автоматизації (CI/CD) та інтеграцій
  • Мінімум: скрипт/CI, що
    1) перевіряє якість і структуру,
    2) завантажує файли у чернетку,
    3) копіює короткі release notes в опис версії,
    4) публікує (minor/major).
  • Інтеграція з DOI-реєстратором (оновлення метаданих; RelatedIdentifier).
  • Синхронізація з OpenAIRE/EOSC через OAI-PMH/JSON-LD/DCAT-AP.
-----------------------------------------
7) Політика доступу, етики та чутливих даних
  • Класифікація: публічні / обмежені / контрольований доступ.
  • Деідентифікація/анонімізація, DPIA (за потреби), зберігання ключів окремо.
  • Розділення: raw чутливі — у контрольованих архівах; processed — публічно з описом методів.
-----------------------------------------
8) Політика зберігання, бекапів і довгострокової архівації
  • Бекапи: 3-2-1 (мінімум 2 географії, щотижневі інкрементальні).
  • Мін. строк зберігання: напр., 10 років для processed + метаданих.
  • Депрекація/відкликання: маркувати “Deprecated”, не видаляти опубліковані версії.
-----------------------------------------
9) Навчання, підтримка, аудит і показники
  • Тренінги для авторів/операторів: шаблони, перевірки, changelog, цитування.
  • Аудити щоквартально: повнота метаданих, відповідність структурі, проходження QA.
  • KPI: частка наборів із валідними метаданими; час TTR оновлення; кількість інцидентів; частка автоматизованих оновлень.
-----------------------------------------
10) Шаблони та SOP (впроваджуйте як додатки до політики)

A. Регламент оновлення (SOP)

Код: Виділити все

1) Підготуйте дані у data/raw → обробіть → data/processed
2) Оновіть file_manifest.csv, data_dictionary.csv, relationships.csv
3) Пройдіть QA-тести (скрипт validate_*.py)
4) Оновіть CHANGELOG.md (SemVer + дата)
5) Запустіть CI “Dataverse Sync” (чернетка + release notes)
6) Перевірка стюардом → Publish (minor/major)
7) Перевірка індексації (OpenAIRE/EOSC), звіт у канал
B. Чек-лист релізу

Код: Виділити все

[ ] README, маніфест, словник змінних узгоджені
[ ] CHANGELOG оновлено, версія підвищена
[ ] SHA256SUMS.txt згенеровано
[ ] Опис версії заповнено (короткі release notes)
[ ] Ліцензія і спосіб цитування додані
C. Шаблон повідомлення про реліз

Код: Виділити все

Release vX.Y (YYYY-MM-DD): Added [...]; Changed [...]; Fixed [...]
DOI: https://doi.org/...
Dataset: <посилання на набір>
D. Шаблон політики (для затвердження керівництвом)

Код: Виділити все

Мета, Охоплення; SemVer; SLA оновлень; мін. метадані; QA-гейти; CI/CD вимога;
чутливі дані; бекапи; ролі (RACI); цитування/DOI; аудит + KPI; винятки.
-----------------------------------------
Нотатки для Dataverse/DataverseUA
  • Використовуйте directoryLabel для збереження структури папок.
  • Короткі release notes додайте до опису версії; повний CHANGELOG.md — як файл (категорія “Documentation”).
  • Для зв’язків між наборами — RelatedIdentifier (IsDerivedFrom/IsNewVersionOf).
-----------------------------------------
Запитання до спільноти
  • Які SLA/графіки оновлень працюють у ваших ЦКК?
  • Які QA-тести ви вважаєте обов’язковими перед релізом?
  • Як у вас організований поділ відповідальності між дослідниками, стюардами й ІТ?
Відповісти