Збереження даних ваших досліджень

Автор: Джеймс Бейкер Переклав на українську: Євген Рачков Оригінал уроку: https://programminghistorian.org/en/lessons/preserving-your-research-data

Цей урок містить корисні поради щодо способів документування та структурування дослідницьких даних. Сьогодні представники різноманітних дисциплін і галузей наукових знань активно використовують комп'ютери як основний засіб зберігання та редагування матеріалів своїх досліджень, а тому стикаються з низкою пов'язаних із цим проблем. Зазначені в уроці поради стануть в нагоді як на етапі створення цифрових дослідницьких даних, так і подальшого їх редагування та використання.

Вступ

В есе 2003 року "Дефіцит чи надлишок" Рой Розенцвайґ прагнув звернути увагу істориків на те, що він назвав "крихкістю документів у цифрову епоху" (Rosenzweig, 736). І хоча його побоювання стосувалися джерел, представлених в інтернеті у відкритому доступі, їх можна легко перенести на початково цифрові матеріали (або дані), які історики створюють під час своїх досліджень.

Саме на роботі з такими дослідницькими даними буде сфокусовано цей посібник. Але чому це важливо?

Слід відзначити, що історики використовують комп'ютери як основний засіб зберігання всіх своїх дослідницьких даних, своїх робочих матеріалів. Їхні рукописи вже давно є цифровими об'єктами, а їхні дослідження, відповідно все частіше набувають форми друкованих нотаток, фотографій архівних джерел чи табличних даних. Крім того, дослідницькі дані в цифровій формі мають очевидні переваги перед фізичними: їх можна переглядати, шукати, розміщувати так, щоб забезпечити доступ з багатьох місць, а також поєднувати чи співставляти з іншими дослідницькими даними.

Просте переведення даних дослідження в цифрову форму не гарантує, що вони "виживуть". Тут під "виживанням" я маю на увазі виживання не в буквальному сенсі чи в розумінні виживання як прочитання цифрових даних черговою версією Microsoft Word. Насамперед, "виживання" означає придатність цифрових даних до їх використання людьми. Якщо ви не маєте готового рішення, то слід звернутися до тих, хто це питання вже вирішив, адже існує безліч корисних порад, як зберігати дані – цим докладно займалися як історики, так й інші дослідники. Наприклад, експерти з управління даними та відповідні інституції пропонують найкращі наукові практики щодо документування, структурування та організації дослідницьких даних. Незважаючи на це, зібрані окремим істориком дослідницькі дані можуть бути втрачені, якщо цей історик не зможе створити та зберегти їх у формі, яка буде зрозумілою та змістовною навіть через роки і десятиліття, не кажучи вже про інших користувачів, які будуть намагатися розібратися в особливостях його дослідницького процесу. Тобто, існує ризик втрати дослідницьких даних внаслідок їх відриву від контексту створення, від неявних знань, які зробили ці дані корисними (наприклад, коли історик готував доповідь X або рукопис Y). Як зазначає Вільям Стаффорд Нобл:

Основний провідний принцип простий: хтось, хто не знайомий з вашим проєктом, повинен мати можливість переглянути ваші комп’ютерні файли та детально зрозуміти, що ви зробили і чому […] Однак найчастіше цим "хтось" є ви. Через кілька місяців ви можете не пам’ятати, що робили під час створення певного набору файлів, або не пам’ятати, до яких висновків ви дійшли. Потім вам доведеться або витратити час на реконструкцію ваших попередніх експериментів, або втратити певну інформацію, яку ви отримали під час цих експериментів.
William Stafford Noble (2009) A Quick Guide to Organizing Computational Biology Projects. PLoSComputBiol 5(7): e1000424. doi:10.1371/journal.pcbi.1000424

Спираючись на існуючі уроки та досвід експертів у галузі дослідницьких даних, цей посібник запропонує способи, за допомогою яких історики можуть документувати та структурувати дані своїх досліджень, щоб вони залишалися корисними в майбутньому. Посібник не варто сприймати лише як сукупність вказівок, натомість передбачається, що читачі будуть повторювати, змінювати та адаптувати представлені ідеї, щоби ті якнайкраще відповідали особливостям їхніх власних досліджень.

Документування дослідницьких даних

Birkwood, Katie (girlinthe). “Victory is mine: while ago I worked out some Clever Stuff ™ in Excel. And I MADE NOTES ON IT. And those notes ENABLED ME TO DO IT AGAIN. [Перемога за мною: певний час тому я зробив деякі розрахунки Clever Stuff ™ в Excel. І я ДОДАВ ПРИМІТКИ ПРО ЦЕ. І ці примітки ДОЗВОЛИЛИ МЕНІ ЗРОБИТИ ЦЮ РОБОТУ ЗНОВУ.]” 7 October 2013, 3:46 a.m.. Tweet.
https://twitter.com/Girlinthe/status/387166944094199809

Метою документування є фіксація процесу створення даних, змін, внесених до даних, і неявних знань, пов’язаних із даними. Методології управління проєктами, такі як PRINCE2, приділяють значну увагу чіткій, структурованій та детальній документації. Хоча цей підхід має переваги, особливо для великих, складних проєктів із багатьма учасниками, середньостатистичний історик, швидше за все, виграє від гнучкого індивідуального підходу до документації, який спирається, але не залежить від принципів управління проєктами. У випадку історичних досліджень різновид документації, який може бути створений для забезпечення якнайбільшої користі від даних дослідження, включатиме наступні аспекти:

документація, що описує нотатки, зроблені під час вивчення документа в архіві, наприклад:
- архівна довідка для оригінального документа,
- пояснення щодо того, наскільки репрезентативними є нотатки (наприклад, повні транскрипції, часткові транскрипції або резюме),
- пояснення щодо того, яку частину документа було досліджено,
- пояснення щодо того, які були ухвалені рішення щодо виключення розділів документа, пов'язаних із дослідницьким процесом;
документація, що описує табличні дані, зокрема:
- як вони були створені (наприклад, вручну чи автоматизовано),
- архівні посилання на першоджерела, з яких були взяті деякі дані,
- які атрибути оригінальних джерел були збережені (і чому);
документація, що описує каталог цифрових зображень, а також інформацію про наступне:
- як було створено кожне зображення,
- звідки ці зображення було завантажено,
- дослідницькі нотатки, що відносяться до цифрових зображень.

Як свідчить останній приклад, одна з ключових цілей документації полягає в тому, щоб описати значущі зв’язки, які існують між різними дослідницькими даними, зв’язки, які з часом можуть здаватися все менш очевидними.

Коли саме має відбуватися документування, власне залежить від дослідника та темпу його дослідження. Основне правило полягає в тому, щоби виробити звичку писати та оновлювати документацію через регулярні проміжки часу. В ідеалі, це треба робити щоразу, коли закінчується робота, запланована на ранок, денний час чи цілий день. Водночас важливо не хвилюватися про досконалість, а натомість прагнути написати послідовну та ефективну документацію, яка буде корисною вам і, можливо, комусь іншому, хто використовуватиме дані ваших досліджень через багато років.

Формати файлів

Дані ваших досліджень і документацію найкраще зберігати у форматах, незалежних від певної платформи (platform agnostic formats), таких як .txt для нотаток, а також .csv (значення, розділені комами) або .tsv (значення, розділені табуляцією) для табличних даних. Вільні формати текстових даних є кращими, ніж власницькі (пропрієтарні) формати, що використовуються за замовчуванням у Microsoft Office або iWork. Дані у відкритих форматах можуть відкриватися багатьма пакетами програмного забезпечення та мають великі шанси залишатися доступними для перегляду та редагування в майбутньому. Більшість стандартних офісних пакетів включає опцію збереження файлів у форматах .txt, .csv і .tsv. Це означає, що ви можете продовжувати працювати зі знайомим програмним забезпеченням і при цьому виконувати відповідні дії, щоби зробити вашу роботу доступною. Порівняно з форматами .doc або .xls, дані у відкритих форматах мають додаткову перевагу з точки зору збереження, оскільки містять лише машинозчитувані елементи. Хоча використання жирного шрифту, курсиву та забарвлення для позначення заголовків або встановлення візуального зв’язку між елементами даних є звичайною практикою, ці орієнтовані на відображення опції, не зчитуються машиною, а тому їх не можна запитувати чи шукати, а також вони не підходять для великих обсягів інформації. Бажано використовувати прості схеми позначок (як-от подвійні астеріски – зірочки, "**"; або три хеші / хештеги – "###") для представлення особливостей даних: наприклад, у моїх власних нотатках три знаки питання позначають те, з чим потрібно детальніше попрацювати; "???" обрано тому, що їх можна легко віднайти за допомогою пошуку CTRL+F.

Цілком ймовірно, що у багатьох випадках такі схеми позначок виникатимуть на основі існуючої індивідуальної практики користувачів (і, як наслідок, їх потрібно буде задокументувати), хоча існують і вже відпрацьовані схеми, такі як Markdown (файли Markdown зберігаються як .md). На GitHub (https://github.com/adam-p/markdown-here) доступна чудова шпаргалка щодо користування Markdown. Вона буде корисною для тих, хто бажає використати (або адаптувати) цю схему позначок. Своєю чергою Notepad++ (https://notepad-plus-plus.org/) рекомендується для користувачів Windows (хоча це й не обов’язково), для роботи з файлами .md. Користувачам Mac або Unix може бути корисним Komodo Edit або Text Wrangler.

Підсумок 1

Підсумовуючи, слід навести ключові моменти щодо документації та форматів файлів:

Прагніть до того, щоби документація точно та послідовно фіксувала неявні знання про дослідницький процес, як щодо ведення нотаток, генерування даних у таблицях, так і для накопичення візуальних доказів.
Зробіть документацію простою, використовуючи формати файлів і методи позначень, які є незалежними від платформи та машинозчитуваними.
Додайте час для оновлення та створення документації у свій робочий процес, проте не дозволяйте роботі з документацією ставати тягарем.
Інвестуйте час у те, щоби залишити паперовий слід (мова про документацію, яка міститиме свідчення про роботу дослідника з даними) зараз та заощадити час на спроби відновити його в майбутньому.

Структурування дослідницьких даних

Структурування ваших дослідницьких даних у послідовний і передбачуваний спосіб може полегшити документування вашого дослідження.

Чому це важливо?

Щоразу, коли ми використовуємо бібліотечний або архівний каталог, ми покладаємося на структуровану інформацію, яка допомагає нам орієнтуватися в даних (як фізичних, так і цифрових), які містять бібліотека чи архів. Без цієї структурованої інформації наше дослідження було би набагато гіршим.

Аналіз URL-адрес – це хороший спосіб подумати про те, чому структурування дослідницьких даних у послідовний і передбачуваний спосіб може бути корисним для вашого дослідження. Погані URL-адреси не можна відтворити, а отже, у науковому контексті, не можна цитувати. І навпаки, хороші URL-адреси чітко відображають вміст вебсторінки, яку вони ідентифікують, або містячи семантичні елементи, або використовуючи один елемент даних, який можна знайти через набір на багатьох вебсторінках.

Типовим прикладом першого підходу є URL-адреси, що використовують вебсайти новин або платформи ведення блогів. URL-адреси WordPress мають такий формат:

назва вебсайту/рік (4 цифри)/місяць (2 цифри)/день (2 цифри)/слова-назви-розділені-дефісами
https://nbu4kids.wordpress.com/2023/02/28/замки-і-фортеці-україни/

або

https://librarycre.wordpress.com/2024/03/19/24-bereznia-vsesvitnii-den-borotby-iz-zakhvoriuvanniam-na-tuberkuloz-materialy-do-vykhovnoi-hodyny

(!) Слід звернути увагу, що використання кирилиці в URL-адресі хоча й отримало певне поширення, проте має низку недоліків. Наприклад, під час копіювання кириличної URL-адреси в браузері користувач замість кириличних знаків зазвичай отримує набір допустимих символів, що генерується автоматично та має вигляд незрозумілих знаків. Довжина такої URL-адреси є значно більшою за кириличний оригінал. Автоматично згенерована URL-адреса ускладнює розпізнавання її пошуковими системами, а також негативно впливає на ранжування запитуваної вебсторінки під час пошуку. Своєю чергою слід враховувати, що кирилиця в назвах вебсторінок, створених за допомогою WordPress (або інших платформ), може автоматично транслітеруватися латиницею. Водночас слід бути уважним, щоби уникнути можливих семантичних помилок в автоматично згенерованій URL-адресі.

Схожий стиль використовують інформаційні агентства, такі як газета "Українська правда":

назва вебсайту/частина розділу/рік (4 цифри)/місяць (2 цифри)/день (1 або 2 цифри)/номер статті
https://www.pravda.com.ua/articles/2024/04/8/7450157/

В архівних каталогах часто використовуються URL-адреси, структуровані за допомогою одного елементу даних. Наприклад, Центральний державний аудіовізуальний та електронний архів структурує свій онлайн-архів у такому форматі:

назва вебсайту/розділ/різновид документа та його унікальний номер у базі даних
https://avd.archives.gov.ua/files/foto-doc.php?name=8375

Своєю чергою вебпроєкт "Міський Медіаархів" Центру міської історії використовує наступний формат:

назва вебсайту/мовна версія/розділ/унікальний номер документа в базі даних
https://uma.lvivcenter.org/en/photos/2774

Наведені приклади ілюструють, що комбінація семантичного опису та елементів даних робить узгоджені та передбачувані структури даних читабельними як для людей, так і для машин. Перенесення цієї логіки на цифрові дані, накопичені під час історичних досліджень, полегшує перегляд даних дослідження, пошук і запити за допомогою стандартних інструментів, наданих операційними системами, якими ми користуємося (і, як побачимо далі, це можна робити також за допомогою більш розширених інструментів).

На практиці структура гарного архіву даних дослідження може виглядати приблизно так (користувачам OS X і Linux треба замінити всі зворотні скісні риски на прямі риски, тобто "\" треба замінити на "/"):

Базовий або кореневий каталог можна назвати "робота":

\work\

(!) Радимо для назв файлів і підкаталогів (папок) використовувати латиницю, оскільки це дозволить забезпечити сумісність ваших дослідницьких даних із різними операційними системами та програмним забезпеченням. Незважаючи на те, що деякі операційні системи та програмне забезпечення підтримують кирилицю, використання латиниці є більш універсальним рішенням. Крім того, зручним для організації файлів і підкаталогів (папок) може стати ієрархічне структурування їх назв – від загальних до конкретних. Такий підхід сприятиме їх послідовному найменуванню та логічному групуванню, що зробить доступ до файлів і підкаталогів (папок) більш зручним і швидким. Зазначений підхід надасть змогу додавати нові файли і підкаталоги (папки) без порушення загальної структури та посилить ефективність керування цифровими дослідницькими даними.

Серії підкаталогів (папок):

\work\events\

\research\

\teaching\

\writing\

У межах цих каталогів є серії інших підкаталогів (папок), створених для кожної події, дослідницького проєкту, модуля чи твору. Важливо запровадити певну домовленість щодо принципів створення назв, яка включатиме елементи дати, а також зберігатиме інформацію впорядкованою без необхідності створення підкаталогів (папок), наприклад, за роками чи місяцями.

\work\research\2014-01_Journal_Articles \2014-02_Infrastructure

Нарешті, додаткові підкаталоги (папки) можна використовувати для відокремлення інформації у випадку, коли кількість даних дослідження зростає.

\work\research\2014_Journal_Articles\analysis \data \notes

Очевидно, що не вся інформація може бути структурована згідно наведених прикладів. Крім того, в умовах появи нових проєктів (та відповідно нових дослідницьких даних) потрібно буде переглядати таксономії (принципи упорядкування даних). У будь-якому випадку, особливості організації даних залишатимуться корисними доти, доки загальна структура каталога буде послідовною та передбачуваною, а також доки відсутні дані також будуть чітко задокументовані. Наприклад, підкаталог (папка) "writing" у наведеній вище структурі може включати .txt файл із зазначенням того, що він містить (наприклад, чернетки та остаточний варіант письмової роботи), а також того, що не містить (наприклад, дослідження, що стосуються цієї письмової роботи).

Назва цього файлу .txt, (насправді, будь-якої документації та дослідницьких даних) є важливою для забезпечення легкої ідентифікації дослідницьких даних. "Notes about this folder.docx" не є гарною назвою, оскільки не відповідає зазначеній меті, тоді як "2014-01-31_Writing_readme.txt" повторює назву каталога та містить інформацію про дату (слід звернути увагу, що використання формату дати "рік_місяць_дата" є найбільш зручним рішенням, оскільки надає можливість ефективно організувати дослідницькі дані, на відміну від форматів "рік_дата_місяць" чи "дата_місяць_рік"). Створений для мого поточного проєкту файл "readme" містить такий тип інформації, який вам та іншим користувачам вашої інформації може бути корисним.

Розглянемо переваги наведеного вище підходу на одному прикладі. Під час попереднього дослідницького проєкту я зібрав близько 2.000 цифрових зображень сатиричних малюнків георгіанської епохи із низки онлайн-джерел, залишаючи оригінальні назви файлів після завантаження. Якби я застосував до них пропонований принцип створення назв із самого початку (скажімо, "РІК ПУБЛІКАЦІЇ_ПРІЗВИЩЕ ВИКОНАВЦЯ_НАЗВА РОБОТИ.ФОРМАТ"), я міг би легко шукати ці зображення та робити до них запити. Починаючи кожну назву файлу з певної дати РРРРММДД, дозволило би сортувати їх в хронологічному порядку в Windows, OS X та Linux. Зробивши так, щоби всі пробіли та знаки пунктуації (крім тире, крапки та підкреслення) були видалені з імен файлів, назви стали би послідовними та передбачуваними. Крім того, це уможливило би використання командного рядка під час роботи з файлами. Але я цього не зробив, і зараз мені потрібно витратити багато часу, щоби змінити кожне ім’я файлу окремо, щоби таким чином зробити дані більш зручними для використання.

Крім того, застосування зазначених умовних позначень в назвах усіх дослідницьких даних робить назви послідовними та передбачуваними, а отже поліпшує читабельність та розуміння структури даних. Наприклад, для згаданого проєкту з журнальними статтями можна створити такий каталог…

\work\research\2014-01_Journal_Articles\

… в якому елементи "рік-місяць" відображатимуть час початку проєкту.

Далі у цей каталог можна включити підкаталог (папку) \data\, в якому зберігатимуться оригінальні дані, використані в проєкті.

2014-01-31_Journal_Articles.tsv

Разом із дослідницькими даними "2014-01-31_Journal_Articles.tsv." в підкаталозі знаходитиметься документація, яка описуватиме ці дані.

2014-01-31_Journal_Articles_notes.txt

Повертаючись на рівень каталога \2014-01_Journal_Articles, можна створити підкаталог (папку) \analysis: 2014-02-02_Journal_Articles_analysis.txt 2014-02-15_Journal_Articles_analysis.txt

Зверніть увагу на специфічність атрибутів "місяць" і "день". У даному випадку вони відображають дати проведення аналізу даних. Назва файлу документації виглядатиме так:

2014-02-02_Journal_Articles_analysis_readme.txt

Нарешті, каталог похідних даних – \data\called\derived_data\ – містить дані з "2014-01-31_Journal_Articles.tsv.". У цьому випадку кожен похідний файл .tsv включатиме рядки з ключовими словами "africa", "america", "art" тощо і матиме відповідні назви.

2014-01-31_Journal_Articles_KW_africa.tsv

2014-01-31_Journal_Articles_KW_america.tsv

2014-02-01_Journal_Articles_KW_art .tsv

2014-02-02_Journal_Articles_KW_britain.tsv

Підсумок 2

Підсумовуючи, слід навести ключові моменти щодо структурування даних дослідження:

Структури даних мають бути послідовними та передбачуваними.
Розгляньте можливість використання семантичних елементів або ідентифікаторів даних для структурування каталогів дослідницьких даних.
Пристосуйте та адаптуйте структуру дослідницьких даних до ваших досліджень.
Застосовуйте умовні позначення для назв каталогів та файлів для їх ідентифікації, створення асоціації між елементами даних і сприяння довгострокової читабельності та розуміння структури ваших даних.

Висновок

У цьому уроці пропонуються способи документування та структурування дослідницьких даних, щоби зберегти їх і зафіксувати неявні знання, отримані під час дослідницького процесу, і, таким чином, спростити використання інформації в майбутньому. Рекомендується використовувати незалежні від певної платформи та машинозчитувані формати для документування та збереження дослідницьких даних. Відзначається, що URL-адреси являють собою практичний приклад як хороших, так і поганих структур даних, що може бути корисним історику для упорядкування його дослідницьких даних.

Зазначені рекомендації не варто сприймати лише як вказівки, натомість очікується, що дослідники адаптують їх під свої завдання. При цьому дослідникам рекомендується дотримуватися стратегій цифрового збереження та найкращої практики управління проєктами. Водночас гарантується, що час, витрачений на документування та структурування дослідження, не буде тягарем. Адже мета цього посібника – посилити ефективність ваших історичних досліджень, що генерують цифрові дані.