> For the complete documentation index, see [llms.txt](https://digihist.lvivcenter.org/posibnik-z-cifrovoyi-istoriyi/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://digihist.lvivcenter.org/posibnik-z-cifrovoyi-istoriyi/upravlinnya-danimi/ochishennya-danikh-z-openrefine.md).

# Очищення даних з OpenRefine

Автори: Сет ван Холанд, Рубен Ферборх та Макс де Вільде \
Переклала українською: Ліана Бліхарська\
Оригінал уроку: <https://programminghistorian.org/en/lessons/cleaning-data-with-openrefine>

*Цей урок пропонує рішення для науковців щодо визначення коректності зібраних даних та відповідних дій щодо них.*

## Цілі уроку

Не сприймайте ваші дані за чисту монету. Дбайте про те, щоб дані з якими працюєте, були максимально коректними. Допомогти вам у цьому покликаний урок нижче. Він зосереджується на тому, як науковці можуть оцінити коректність даних і діяти відповідно до цього. Ви ознайомитесь з принципами і практиками очищення даних, а також дізнаєтесь, які чотири основні завдання з використанням [OpenRefine](http://openrefine.org/) можуть в цьому допомогти:

1. Видалення записів-дублікатів
2. Відокремлення декількох значень, що містяться в одному полі
3. Аналіз розподілу значень у наборі даних
4. Групування різних відображень однієї і тієї ж реальності

Виконання цих кроків ми проілюструємо на основі даних, отриманих з реєстраційних карток львівського ґетто, та продемонструємо, як (напів)автоматизовані методи допоможуть виправити неточності у ваших даних.

## Чому історики повинні дбати про якість даних?

Дублікати записів, порожні значення та неузгоджені формати — ми повинні бути готові мати справу з такими випадками під час роботи з наборами історичних даних. Цей урок навчить вас знаходити розбіжності в записах, що містяться в електронних таблицях або базах даних. Позаяк ми все частіше ділимося, збираємо і повторно використовуємо дані в Інтернеті, історикам доведеться зважати на проблеми, які неминуче виникатимуть у зв'язку з якістю даних. Використовуючи програму OpenRefine, ви зможете легко виявити систематичні помилки, на кшталт порожніх комірок, дублікатів, орфографічних неточностей тощо. *OpenRefine* дозволяє не тільки швидко діагностувати коректність ваших даних, але й коригувати певні помилки в автоматичний спосіб.

## Опис інструменту: OpenRefine

Окрім операцій [профілювання](https://uk.wikipedia.org/wiki/%D0%9F%D1%80%D0%BE%D1%84%D1%96%D0%BB%D1%8E%D0%B2%D0%B0%D0%BD%D0%BD%D1%8F_%D0%B4%D0%B0%D0%BD%D0%B8%D1%85) та очищення даних, додаткові розширення *OpenRefine* дозволяють користувачам ідентифікувати вирази/об’єкти/поняття в неструктурованому тексті (це процес, який називається [розпізнаванням іменованих сутностей](https://uk.wikipedia.org/wiki/%D0%A0%D0%BE%D0%B7%D0%BF%D1%96%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%BD%D1%8F_%D1%96%D0%BC%D0%B5%D0%BD%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%85_%D1%81%D1%83%D1%82%D0%BD%D0%BE%D1%81%D1%82%D0%B5%D0%B9) (РІС), а також узгоджувати власні дані з наявними базами знань. Таким чином, OpenRefine може бути практичним інструментом для пов'язування даних з виразами та відомостями, які вже опубліковані [Бібліотекою Конгресу США](https://www.loc.gov/) або [Online Computer Library Center](https://www.oclc.org/en/home.html) (OCLC). Очищення даних є передумовою для цих кроків; рівень успішності РІС як і успішність зіставлення із даними третіх сторін залежить від здатності зробити ваші дані якомога більш цілісними.

## Опис вправи: Реєстраційні картки мешканців львівського ґетто

Для сьогоднішнього уроку ми використаємо інформацію, отриману в результаті роботи з реєстраційними картками мешканців львівського ґетто.&#x20;

Із початком нацистської окупації у 1941 році, у північній частині Львова було створене ґетто, куди було переселено третину мешканців міста. Воно функціонувало до кінця червня 1943 року. Частина документів, створених нацистами щодо ґетто, збереглась у львівських державних архівах. У 1995 році команда Меморіального музею Голокосту ([United States Holocaust Memorial Museum](https://www.ushmm.org/)) оцифрувала ці документи, включаючи корпус реєстраційних карток майже 18 000 його мешканців. Кожна з них містила детальну інформацію про особу: ім’я та прізвище, дату народження, місце проживання, професію, місце роботи та спеціальні відмітки. Ідентифікація та нанесення на мапу приблизних місць проживання частини мешканців, а також меж ґетто та порівняння їх розташування на історичних та сучасних мапах чи аерофотозйомці Янівського табору ([мапи](https://lia.lvivcenter.org/uk/themes/maps/)) стали можливими завдяки співпраці між істориком [Вайтманом Вейд Беорном](http://waitmanwbeorn.com/) та [Центром міської історії](https://lia.lvivcenter.org/uk/themes/janowska-camp/) у Львові. Ці джерела сприяють глибшому дослідженню історії Львова періоду нацистської окупації, зокрема, повсякденного життя мешканців львівського ґетто, примусової праці та депортації, виживання та поведінкових стратегій, трансформацій міського простору та топографії. Окрім цього, вони дозволяють розширити діяльність у сферах комеморації, туризму та освіти.

<figure><img src="/files/HKatk06VT32LvZQh5lUH" alt="" width="303"><figcaption><p>Зображення 1. Приклад реєстраційної картки з львівського ґетто</p></figcaption></figure>

У цьому уроці, ви працюватимете зі спеціально підготовлено таблицею, яка містить записи з цих карток та інформацію про історичні назви вулиць.&#x20;

### Початок роботи: встановлення OpenRefine та імпорт даних

Завантажте [OpenRefine](https://openrefine.org/download) і дотримуйтесь інструкцій зі встановлення. *OpenRefine* працює на різних операційних системах: Windows, Mac та Linux. Після запуску програми з’явиться термінал і у вашому браузері відкриється нова вкладка з інтерфейсом OpenRefine. Попри використання веб-браузера, важливо розуміти, що програма працює локально на вашому пристрої і ваші дані не зберігатимуться в Інтернеті. Файл з даними для цього уроку доступний [тут](https://lia.lvivcenter.org/digihist/lviv_ghetto_cards_100_exercise.tsv). Будь ласка, завантажте його перед початком роботи.&#x20;

На стартовій сторінці *OpenRefine* створіть новий проєкт вибравши опцію "Create project" ("Створити проєкт"), оберіть завантажений файл з даними, і натисніть кнопку "Next" ("Далі"). За замовчуванням, перший рядок буде правильно розпізнано як назву стовпця.&#x20;

У цьому випадку, вам потрібно буде упевнитись, що у налаштуваннях парсингу[^1] внизу, знято  прапорець біля опції "Use character" to enclose cells containing column separators" ("Застосувати лапки для створення комірок, що містять роздільники стовпців"). Лапки у файлі не мають жодного значення для процесів у *OpenRefine*. Натомість виберіть "Attempt to parse cell text into numbers" ("Розпізнати числа у текстових комірках"), щоб дозволити *OpenRefine* автоматично розпізнавати числа. Тепер натисніть кнопку "Create project" ("Створити проєкт"). Якщо все правильно запущено, ви побачите 106 рядків.

<figure><img src="/files/wo5Uc3F8b1fC5Ep2LMjC" alt=""><figcaption><p>Зображення 2. Налаштування парсингу даних</p></figcaption></figure>

Дані у таблиці поділені за логікою записів у картках. Одна реєстраційна картка відповідає одному рядку, а в кожному рядку — тринадцять стовпців: більшість з них відповідає категоріям, які були вписані реєстраторами та є автентичними даними, наприклад: номер картки, прізвище, ім’я, день, місяць, рік народження, місце проживання (назва вулиці), місце проживання (номер будинку, та якщо є — помешкання), професія, місце працевлаштування, примітки. Два стовпці були додані авторами: номер відповідно до послідовності оцифрування карток та історичні назви згаданих вулиць. У цьому уроці нас найбільше цікавлять назви вулиць, саме з ними будемо виконувати подальші операції.

### Познайомтеся з даними, з якими будете працювати

<figure><img src="/files/6Esn0RlPFfSuwm1VQ2BV" alt=""><figcaption><p>Зображення 3. Використання текстового фасету для стовпців "Vorname" ("Прізвище") <br>та "Wohnung Str. ("Місце проживання" (назва вулиці)</p></figcaption></figure>

Перше, що потрібно зробити, це ознайомитись зі своїми даними. Ви можете перевірити різні значення даних, відображаючи їх у [`фасетах`](#user-content-fn-2)[^2]. Ви можете уявити фасет як лінзу, через яку переглядаєте певний набір даних на основі обраного вами критерію. Натисніть на трикутник перед назвою стовпця, виберіть "Facet" і створіть фасет, який відповідатиме вашим потребам. Наприклад, спробуйте створити фільтр (фасет) щодо тексту `"Text facet"` або числа "`Numeric facet"`, залежно від типу значень, що містяться в стовпцях (числові значення позначені зеленим кольором). Пам'ятайте, що текстові фасети найкраще використовувати для полів з великими значеннями (наприклад, вираховувати повторюваність назв вулиць у колонці "Wohnung Str."). Якщо ви зіткнетеся з помилкою "Too many to display" ("Занадто багато для відображення"), ви можете збільшити ліміт кількості варіантів за замовчуванням до 2000, але занадто високий ліміт може сповільнити роботу програми (5000 зазвичай є безпечним вибором). Числові фільтри не мають цього обмеження.

<figure><img src="/files/ZwMYFdPgaMiLUV5P10iG" alt=""><figcaption><p>Зображення 4. Використання числового фасету для стовпця "Geburtsdatum" ("Дата народження" (рік)</p></figcaption></figure>

Щоб отримати більше можливостей, виберіть "Customized facets" ("Настроювані фасети"): наприклад, фасети для порожніх полів ("Facet by blank (Null or empty string)") корисні для того, щоб виявити записи із порожніми комірками. Ми розглянемо ці можливості в наступних вправах.

### Видалення порожніх рядків

При створенні числового фасету для стовпця "Geburtsdatum" ("Дата народження" (рік), ви помітите, що у таблиці є чотири порожні рядки. Ви можете знайти їх, знявши прапорець для критерію "Numeric" ("Числові"), залишивши лише нечислові та порожні значення. Насправді, ці значення не є порожніми, вони недруковані символи, у чому ви зможете пересвідчитись, навівши курсор до місця, де мало б бути значення, і побачите там кнопку "Edit" ("Редагувати"). Тобто, навіть під час роботи з вже готовими файлами даних ви можете редагувати їх вручну.

<figure><img src="/files/n36PddFQ1UCi47oIOnsv" alt=""><figcaption><p>Зображення 5. Рядки з порожніми значеннями</p></figcaption></figure>

Щоб видалити ці порожні рядки, натисніть трикутник першого стовпчика під назвою "All" ("Всі"), виберіть "Edit rows" ("Редагувати рядки"), а потім "Remove matching rows" ("Видалити рядки, що повторюються"). Закрийте числовий фасет, щоб побачити те, що залишилось – 102 рядки.

<figure><img src="/files/9hH9SP6HVqD07UtQS67Q" alt=""><figcaption><p>Зображення 6. Видалення пустих рядків</p></figcaption></figure>

### Видалення дублікатів

Другим кроком є виявлення і видалення дублікатів. Тепер ми переходимо до роботи з назвами вулиць. Дублікати можна виявити, відсортувавши за унікальним значенням, наприклад, цю операцію можна виконати, натиснувши трикутник ліворуч від "Wohnung Str.", вибрати опцію "Sort…" ("Сортувати…") і пізніше вибрати маркер "Text" ("За текстовими значеннями"). У цьому випадку сортування може відбуватися в алфавітному порядку від A до Z або навпаки. Тепер рядки з ідентичними назвами вулиць розміщені поруч один з одним. У *OpenRefine* сортування є лише візуальною підмогою, тому таке впорядкування потрібно зробити постійним вручну. Для цього натисніть меню "Sort" ("Сортувати"), яке щойно з'явилося вгорі, і виберіть опцію "Reorder rows permanently" ("Впорядкувати рядки назавжди"). Якщо ви забудете це зробити, то отримаєте непередбачувані результати в подальших кроках цього уроку.

<figure><img src="/files/1TDjJ55XCrqLivYW6nWV" alt=""><figcaption><p>Зображення 7. Закріплення результату сортування</p></figcaption></figure>

Далі зробіть так, щоб у стовпці  "Wohnung Str." залишились тільки унікальні дані – назви вулиць. Для цього потрібно позбавитись від рядків, у яких повторюються назви вулиць, позначивши їх як дублікати. Для цього натисніть на трикутник біля "Wohnung Str.", виберіть "Edit cells" ("Редагувати клітинки"), а після цього "Blank down" ("Спорожнити").

У повідомленні про стан ви побачите, що було змінено 70 комірок (якщо ви забули остаточно впорядкувати рядки, ви побачите лише 24; у такому разі, скасуйте операцію "Blank down" ("Спорожнити") на вкладці "Undo/Redo" ("Скасувати/повторити") і поверніться до попереднього пункту, щоб переконатися, що рядки було відсортовано постійно). Вкладка "Undo/Redo" ("Скасувати/повторити") зліва від таблиці, над полем, де відображалися результати фасетування.

<figure><img src="/files/FgYteSN7hU7HYpcYr9zG" alt=""><figcaption><p>Зображення 8. Очищення комірок з назвами вулиць, які повторюються</p></figcaption></figure>

Вилучіть ці рядки, створивши фасет "Blank cells" ("Пусті комірки") у стовпчику "Wohnung Str." ("Facet" > "Customized facets" > "Facet by blank"). Виокреміть 70 порожніх рядків, натиснувши на значення "True" ("Правдиве"), і вилучивши їх за допомогою операцій в трикутнику "All" ("Edit rows" > "Remove matching rows"). Після закриття фасета ви побачите 32 рядки з унікальними назвами вулиць.

<figure><img src="/files/Fa0XSANwz5Lk3PAm8MOC" alt=""><figcaption><p>Зображення 9. Видалення комірок, у яких раніше містилися дублікати назв вулиць</p></figcaption></figure>

Пам'ятайте, що при видаленні дублікатів потрібно бути особливо обережним. Цей урок побудований на спеціально підготовлених даних і зосереджується лише на колонці "Wohnung Str.", але у реальній ситуації варто перевіряти вручну, чи весь рядок є дублікатом, чи ні.

<figure><img src="/files/j4ctwEubNS8VKP5mzRSt" alt=""><figcaption><p>Зображення 10. Рядки з унікальними назвами вулиць після видалення дублікатів</p></figcaption></figure>

### Атомізація

Після того, як ми видалили дублікати записів, ми можемо уважніше розглянути поле "Historischer Straßenname" ("Історичні назви вулиці"). Історичні назви кожної з вулиць містяться в одному полі, розділені символом "|". Наприклад, запис про вулицю "Czerechowa" містить дві її інші назви: "Orląt" і "Cheremkhova". Це назви, які носила вулиця до, перед та після нацистської окупації міста (того періоду, коли було створено реєстраційні картки). Щоб детально проаналізувати використання інших назв, значення поля "Historischer Straßenname" потрібно розбити на окремі комірки на основі символу вертикальної риски, розкривши 34 записи у 100 рядках. Виберіть "Edit cells" ("Редагувати клітинки"), "Split multi-valued cells" ("Розділити багатозначні комірки"), ввівши '|' як роздільник значень (separator). *OpenRefine* повідомить вам, що тепер у вас є 100 рядків.

<figure><img src="/files/Zy5u7PrAJZTWVsNsV7s6" alt=""><figcaption><p>Зображення 11. Поділ у стовпці "Historischer Straßenname" за допомогою символу вертикальної риски</p></figcaption></figure>

<figure><img src="/files/4PYigwcUPSEGwUWQRj4z" alt=""><figcaption><p>Зображення 12. Вигляд таблиці після розбиття на окремі комірки даних у багатозначних комірках у стовпці "Historischer Straßenname"</p></figcaption></figure>

Важливо зрозуміти принцип роботи з рядками/записами. Ви можете перемикати режими рядків і записів, натискаючи на відповідні опції над заголовками стовпців. У режимі "Rows" ("Рядки") ми можемо маніпулювати кожним з елементів запису окремо. У режимі "Records" ("Записи") під кожним номером міститься запис, який може мати різні значення в різних рядках (згруповані разом сірим або білим кольором), але ними можна маніпулювати лише як єдиним цілим.

<figure><img src="/files/Koxh6c850mWbj3xBTGjC" alt=""><figcaption><p>Зображення 13. Вигляд даних у режимі "Records" ("Записи")</p></figcaption></figure>

Отже, зараз існує 100 значень (рядків), розподілених по 34 записах.

### Фасетування та кластеризація

Після того, як вміст поля належним чином розподілено, можна застосувати фільтри, фасети і кластери, щоб отримати швидкий і зрозумілий огляд класичних завдань, які можна виконати з назвами вулиць. Застосувавши спеціальний фасет "Facet by null" ("Фасетування за порожніми значеннями") для поля "Historischer Straßenname", можна одразу виявити 10 записів, які не мають виписаних історичних назв вулиць (натиснувши опцію "True"). Пам’ятаємо, що дані в *OpenRefine* також можна редагувати вручну, відповідно, можна редагувати та дописувати інформацію з інших джерел.

<figure><img src="/files/tqHFwOT4cQoblraIcdok" alt=""><figcaption><p>Зображення 14. Результати застосування спеціального фасета "Facet by null" та виокремлення вулиць, <br>для яких у файлі немає їх історичних назв</p></figcaption></figure>

Застосування текстового фасета до полів "Wohnung Str." та "Historischer Straßenname" дозволяє переглянути 63 різні назви вулиць, що використовуються в колекції (при роботі зі значно більшим масивом даних можна змінювати ліміт кількості варіантів; за замовчуванням їхня кількість становить 2000, ви можете натиснути кнопку "Set choice count limit" ("Встановити ліміт кількості варіантів"), щоб збільшити її до 5000). Заголовки можна сортувати за алфавітом або за частотою повторюваності ("Count").

<figure><img src="/files/HM40dwEJfAFYXoIbOIdz" alt=""><figcaption><p>Зображення 15. Перегляд частоти повторюваності назв вулиць за допомогою текстового фасета</p></figcaption></figure>

Під час перегляду можна побачити, що дані у таблиці потребують упорядкування та уніфікації, наприклад, назви сучасної вулиці Липинського (Lypynskoho). Цю проблему зможе вирішити кластеризація, яка дозволяє розв'язувати завдання, пов'язані з невідповідністю назв, непослідовним використанням форми однини або множини, а також простими орфографічними помилками.

<figure><img src="/files/YsHt1PErg3TjgF4kyTgY" alt=""><figcaption><p>Зображення 16. Розбіжності у написанні назв вулиці "Ordona" для сучасної вул. Липинського</p></figcaption></figure>

Після застосування текстового фасета, *OpenRefine* пропонує кластеризувати різні варіанти написання на основі різних методів подібності. Програма представляє пов'язані значення і пропонує об'єднати їх у найбільш повторювані. Для цього, щоб перейти до процесу кластеризації, натисніть на кнопку "Cluster" ("Кластеризувати"), яку знайдете у діалогових вікнах/полях, які з’явились після процесу фасетування зліва, де відображаються назви вулиць. У цьому уроці застосовано кластеризацію значень для колонки "Wohnung Str".

<figure><img src="/files/wfRBbnjmxB9dlzC4d66m" alt=""><figcaption><p>Зображення 17. Перехід до процесу кластеризації</p></figcaption></figure>

У діалоговому вікні, яке з’явилося, оберіть значення, які ви хочете згрупувати, вибравши їхні поля окремо або натиснувши "Select all" ("Виділити все") внизу, а потім натисніть "Merge Selected and Re-Cluster" ("Об'єднати вибране і повторно згрупувати").

<div align="center" data-full-width="false"><figure><img src="/files/itwWW0TfZESjtmAy2TRL" alt=""><figcaption><p>Зображення 18. Процес кластеризації та редагування</p></figcaption></figure> <figure><img src="/files/AxbAzMFeZSQVybl20Lk1" alt=""><figcaption><p>Зображення 19. Процес кластеризації та редагування</p></figcaption></figure></div>

Класичний метод кластеризації не надто ускладнений, тому він ще не знаходить усіх можливих кластерів. Поекспериментуйте з різними методами, щоб побачити, які результати вони дають. Проте будьте обережні: деякі методи занадто агресивні, тому ви можете об'єднати в кластери значення, які не належать один до одного. Експериментуючи з методами можна також перевіряти значення, які вам пропонує програма, відкривши їх у нових вкладках за допомогою опції "Browse this cluster" ("Переглянути цей кластер") (див. Зображення 19). Певні зміни можна також вносити вручну (див. Зображення 20).

<figure><img src="/files/naNjpEptiakJwlQKaIBc" alt=""><figcaption><p>Зображення 20. Експериментування з методами та функціями</p></figcaption></figure>

<figure><img src="/files/TxLIMvI1nD7Tkx5HobL7" alt=""><figcaption><p>Зображення 21. Внесення змін в ручному режимі</p></figcaption></figure>

Тепер, коли значення були згруповані окремо, ми можемо знову об'єднати їх в одну комірку. Натисніть на трикутник біля "Historischer Straßenname" і виберіть "Edit cells" ("Редагувати клітинки") > "Join multi-valued cells" ("Об'єднати багатозначні клітинки") > "ОК". Виберіть символ вертикальної риски (|) як роздільник. Тепер рядки виглядатимуть як раніше, з багатьма значеннями для історичних назв вулиць.

### Застосування спеціальних перетворень за допомогою команд GREL[^3]

Мабуть, ви пам'ятаєте, що кількість записів збільшилася після розбиття на частини: два записи з'явилися нізвідки. Щоб з'ясувати причину такої різниці, нам потрібно повернутися до того моменту, як ми розділили категорії на окремі рядки. Для цього перемкніть вкладку "Undo/Redo" ("Скасувати/Повторити") праворуч від вкладки "Facet/Filter" ("Фасет/Фільтр"), і ви отримаєте історію всіх дій, виконаних з моменту створення проєкту. Виберіть крок безпосередньо перед "Split multi-valued cells in column Historischer Straßenname" ("Розділити багатозначні клітинки в стовпці Історичні назви вулиць") (якщо ви все робили за нашим прикладом, це має бути "Remove 70 rows" ("Видалити 70 рядків"), а потім поверніться на вкладку "Facet/Filter".

<figure><img src="/files/Al8VPK56YPwr9QOPh33A" alt=""><figcaption><p>Зображення 22. Відновлення попереднього стану даних</p></figcaption></figure>

Проблема виникла під час операції розділення з застосуванням символу вертикальної риски, тому є велика ймовірність, що все, що вийшло не так, пов'язано саме з цим символом. Застосуймо фільтр до стовпця "Historischer Straßenname", вибравши в меню "Text filter" ("Текстовий фільтр"). Спочатку введіть один символ | у полі ліворуч. *OpenRefine* повідомить вам, що є 21 відповідний запис (тобто записи, що містять вертикальну риску) із загальної кількості 32. Комірки, які не містять вертикальної риски, можуть бути порожніми, але також можуть містити одну назву без роздільника, як, наприклад, запис 12, який містить лише одну історичну назву вулиці – "Majowa".

Тепер введіть другий символ | після першого, щоб отримати || (подвійну вертикальну риску): ви можете бачити, що 2 записи відповідають цьому типу запиту. Ймовірно, саме ці 2 записи зумовили розбіжність: коли *OpenRefine* розділяє їх, подвійна вертикальна риска інтерпретується як розрив між двома записами, а не як непотрібний подвійний роздільник. Як нам тепер виправити ці показники? Перейдіть до меню поля "Historischer Straßenname", і виберіть "Edit cells" ("Редагувати клітинки") > "Transform"  ("Трансформувати").... Ласкаво просимо до інтерфейсу перетворення тексту, потужного функціоналу *OpenRefine*, що використовує команди розроблені на OpenRefine Expression Language (GREL).&#x20;

Слово "Value" ("Значення") у текстовому полі представляє поточне значення кожної комірки, яке ви можете побачити нижче. Ми можемо змінити це значення за допомогою заданих методів (див. повний список у [документації GREL](https://openrefine.org/docs/manual/grelfunctions)).&#x20;

У цьому прикладі ми хочемо замінити подвійні вертикальні риски на одинарні. Цього можна досягти, ввівши такий GREL вираз (не забудьте про лапки):

```
value.replace("||", "|")
```

Під текстовим полем "Expression" ("Вираз") ви побачите попередній перегляд змінених значень з видаленими подвійними вертикальними рисками. Натисніть "OK", вимкніть фасет і спробуйте ще раз розділити категорії за допомогою "Edit cells" ("Редагувати клітинки") > "Split multi-valued cells" ("Розділити багатозначні клітинки"), тепер кількість записів залишиться така як і раніше – 32 записи (натисніть на кнопку "records", щоб перевірити це ще раз).

<figure><img src="/files/0e0pxPCQyEZyItTCjIt9" alt=""><figcaption><p>Зображення 23. Використання GREL виразів для заміни символів у тексті</p></figcaption></figure>

\*\*\*

Ще одне завдання, з яким можна справитись за допомогою GREL команд – це ситуація з записами, для яких одна і та ж назва вказана двічі.&#x20;

До прикладу, візьмемо запис 31, для нього є такі історичні назви вулиці:&#x20;

"Wierzbowa|Gundulicza|Eisenbründlweg|Michurina|Karmanskoho|Michurina".&#x20;

Назва "Michurina" з'являється другий раз непотрібно, тому ми хочемо видалити цей дублікат. Клацніть трикутник "Historischer Straßenname" і натисніть "Edit cells" ("Редагувати клітинки"), "Join multi-valued cells" ("Об'єднати багатозначні клітинки"), "OK". Виберіть символ вертикальних рисок як роздільник. Тепер категорії відображаються, як і раніше.&#x20;

Потім, у цьому ж стовпці, виберіть "Edit cells" ("Редагувати клітинки") та після цього "Transform" ("Трансформувати"). За допомогою GREL команд ми можемо поступово розділяти категорії на символі вертикальної риски, шукати унікальні категорії і знову їх об'єднувати. Для цього просто введіть наступний вираз:

`value.split("|").uniques().join("|")`&#x20;

Ви помітите, що було змінено 2 комірки, де були дублікати "Michurina" та "Zamarstynivska".

### Експорт очищених даних

Із моменту першого завантаження даних до *OpenRefine*, всі операції з очищення виконувалися в пам'яті програми, а ваш початковий набір даних залишався недоторканим. Якщо ви хочете зберегти очищені дані, вам потрібно експортувати їх, натиснувши на меню "Export" ("Експортувати") у верхньому правому куті екрана. *OpenRefine* підтримує велику кількість форматів, таких як [CSV](https://uk.wikipedia.org/wiki/CSV), HTML або Excel: виберіть той, який вам найбільше підходить, або додайте власний шаблон експорту, натиснувши "Templating" ("Створення шаблону"). Ви також можете експортувати свій проєкт у внутрішньому форматі *OpenRefine*, щоб поділитися ним з іншими.

## Висновки

Якщо ви запам'ятаєте лише одну річ з цього уроку, то вона має бути такою: не буває цілковито чистих даних, але це можна виправити. Як ми тут показали, ви можете самостійно значно покращити їх якість. Перш за все, ви можете швидко виявити, скільки порожніх значень містить ваш набір даних і як часто певне значення (наприклад, назва вулиці) використовується. Цей урок також продемонстрував, як за допомогою *OpenRefine* в автоматизованому режимі розв'язувати такі проблеми, як дублікати та орфографічні помилки. Заохочуємо вас експериментувати з функціями чищення на копії вашого власного набору даних, адже *OpenRefine* дозволяє відстежити ваші кроки у випадку, якщо ви припустилися помилки.

### Про авторів

Сет ван Холанд, професор кафедри Інформаційно-комунікаційних наук Брюссельського вільного університету.\
Рубен Ферборх, постдок дослідник Мультимедійної лабораторії Гентського університету.\
Макс де Вільде, аспірант кафедри Інформаційно-комунікаційних наук Брюссельського вільного університету.

**Переклад українською:**\
Ліана Бліхарська, аспірантка кафедри історії Українського Католицького Університету, [ORCID](https://orcid.org/0000-0001-5453-7565).

**Переклад рецензували:**\
Тарас Назарук, керівник напрямку цифрової історії Центру міської історії, аспірант Університету Гаґена, [ORCID](https://orcid.org/0009-0006-4132-9728).\
Антон Кістол, науковий співробітник, Дніпропетровський національний історичний музей ім. Д. І. Яворницького.

**Рекомендоване цитування:**\
ван Холанд, Сет; де Вільде, Макс та Ферборх, Рубен. "Очищення даних з OpenRefine." Programming Historian (2013), переклала Ліана Бліхарська, *Посібник з цифрової історії*, 2025. DOI: <https://doi.org/10.69915/dh019>

[^1]: Парсинг – це синтаксичний аналіз даних, процес аналізу вхідної послідовності символів/слів для розбору визначеної граматичної структури з використанням спеціального програмного забезпечення

[^2]: [Фасет](https://uk.wikipedia.org/wiki/%D0%A4%D0%B0%D1%81%D0%B5%D1%82%D0%BD%D0%B8%D0%B9_%D0%BF%D0%BE%D1%88%D1%83%D0%BA) – це фільтр, модель доступу до набору значень за певною окремою ознакою.

[^3]: Google Refine Expression Language