У довготривалих дослідницьких проєктах важливо регулярно оновлювати набори даних: додавати нові вимірювання, виправляти помилки, оновлювати метадані. Але як зробити це не вручну кожного разу?
У цій темі розглянемо способи автоматизації оновлень для популярних відкритих репозиторіїв — таких як Zenodo, Dataverse, Figshare — та інструменти, які можуть у цьому допомогти.
---------------------------------------------------------------------------------------------
Це процес, коли зміни у ваших наборах даних (нові файли, метадані, версії) синхронізуються з репозиторієм автоматично — без ручного завантаження кожного разу.
Це можливо, якщо:
• дані зберігаються в GitHub або іншій системі керування версіями
• репозиторій підтримує API або інтеграцію з платформами CI/CD
• ви налаштовуєте сценарій автоматичного завантаження або публікації нової версії
-----------------------------------------------------------------------------------------------
1. GitHub + Zenodo (найпоширеніше)
Zenodo підтримує автоматичне архівування GitHub-репозиторіїв. Коли ви створюєте GitHub-«реліз», Zenodo:
• створює копію даних
• присвоює DOI
• оновлює метадані
Інструкція:
• Зареєструйтесь на Zenodo
• Перейдіть у налаштування інтеграції GitHub
• Авторизуйте доступ і увімкніть потрібний репозиторій
• Створіть реліз у GitHub → буде автоматично створено версію в Zenodo
Переваги:
• Повна історія змін зберігається
• Кожен реліз отримує окремий DOI
• Дані завжди оновлені без дублювання
----------------------------------------------------------------------------------------------
2. Використання API репозиторіїв
Репозиторії Dataverse, Figshare, Dryad підтримують REST API для завантаження/оновлення даних і метаданих.
Що це дає:
• Можна автоматизувати публікацію даних скриптами (наприклад, на Python)
• Можна налаштувати інтеграцію зі збірками, лабораторними серверами, ELN
Ресурси:
• Dataverse API Docs
• Figshare API Docs
• Zenodo REST API
------------------------------------------------------------------------------------------------
3. Інтеграція з платформами CI/CD (Travis CI, GitHub Actions)
Ви можете налаштувати автоматичну перевірку, генерацію метаданих або push даних до репозиторію при зміні файлів.
Наприклад:
• створюється нова версія CSV-файлу → автоматично оновлюється changelog
• публікується препринт → зʼявляється відповідна версія даних
Інструменти:
• GitHub Actions
• Travis CI
• Docker — для повторюваного середовища
--------------------------------------------------------------------------------------------------
Екологічний проєкт Portal Project з 1977 року збирає дані про тварин і рослини в Аризоні. З 2019 року:
• дані зберігаються у GitHub
• автоматично архівуються у Zenodo
• changelog ведеться автоматично
• кожен реліз має DOI та стабільну цитовану версію
Джерело: Nature, 2025 — "Need to update your data? Follow these five tips"
-----------------------------------------------------------------------------------------------------
Автоматизація оновлень:
• економить час
• підвищує якість документації
• зменшує помилки при ручному завантаженні
• дозволяє іншим дослідникам користуватись актуальними й версіонованими даними