Комп'ютерний зір та гуманітаристика: Вступ до глибокого навчання для класифікації зображень (1)

Частина перша

Автори: Даніель ван Стрін, Каспар Білен, Мелвін Веверс, Томас Смітс і Кетрін МакДонаф Переклав: Дмитро Батько Оригінал уроку: https://programminghistorian.org/en/lessons/computer-vision-deep-learning-pt1

Це перший урок із двох, присвячених методам комп'ютерного зору, заснованих на глибокому навчанні, для досліджень у сфері гуманітарних наук. Використовуючи набір даних з історичних газетних оголошень та бібліотеку fastai, урок демонструє процес навчання моделі комп'ютерного зору для виконання класифікації зображень.

Вступ

Хоча більшість істориків погодиться з тим, що (сучасна) репрезентація формується за допомогою мультимодальних медіа – тобто медіа, таких як газета, телебачення чи інтернет, які поєднують у собі кілька форм сприйняття, – у галузях цифрової гуманітаристики та цифрової історії все ще домінують текстові медіа та широке розмаїття методів, доступних для їхнього аналізу. Сучасних істориків часто звинувачують у нехтуванні не текстовими формами репрезентації, а цифрові гуманітарії, зокрема, присвятили себе дослідженню текстових джерел. Багато хто використовує Оптичне розпізнавання символів (OCR – Optical Character Recognition) – технологію, яка робить оцифрований текст машинозчитуваним, а також методи, що випливають зі сфери Обробки природної мови (NLP – Natural Language Processing), для аналізу змісту і контексту слів у великих документах. Поєднання цих двох аспектів сформувало головну методологічну інновацію в галузі цифрової історії: можливість "віддаленого зчитування" великих корпусів тексту і виявлення масштабних закономірностей.

За останні десять років сфера комп'ютерного зору, яка спрямована на досягнення високого рівня розуміння зображень за допомогою обчислювальних методів, зазнала стрімких інновацій. Наприклад, моделі комп'ютерного зору можуть з високою точністю виявляти та розпізнавати людей, тварин і тисячі інших об'єктів на зображеннях. Цей технологічний прорив дає змогу зробити для розпізнавання зображень те саме, що комбінація методів OCR/NLP зробила для текстів. Простіше кажучи, комп'ютерний зір відкриває для масштабного аналізу частину цифрового архіву, яка досі залишалася майже недослідженою: мільйони зображень в оцифрованих книгах, газетах, журналах, та історичних документах. Таким чином, історики тепер зможуть дослідити "візуальний аспект цифрового прогресу в історичних дослідженнях".

У цьому уроці наведено приклади того, як методи комп'ютерного зору можуть бути застосовані для аналізу великих історичних візуальних масивів даних новими способами, а також як можна навчати власні моделі комп'ютерного зору. Окрім визначення змісту зображень та класифікації їх за категоріями – двох завдань, які зосереджені на візуальних особливостях, – методи комп'ютерного зору також можуть бути використані для побудови графіків, які описують стилістичну (не)схожість між зображеннями.

Однак, слід зазначити, що методи комп'ютерного зору ставлять перед істориками низку теоретичних і методологічних проблем. По-перше, будь-яке застосування методів комп'ютерного зору до історичних даних має починатися з ретельно сформульованого історичного питання і, як наслідок, включати обговорення масштабу. Якщо коротко: чому важливо відповісти на це питання і чому для цього потрібні методи комп'ютерного зору?

По-друге, враховуючи дискусії у сфері справедливості машинного навчання (ML – Machine learning), які спрямовані на розв'язання питання його упередженості, історики повинні усвідомлювати той факт, що методи комп'ютерного зору проливають світло на певні частини візуальних даних, але можуть не помічати, неправильно ідентифікувати, неправильно класифікувати або навіть затушовувати інші частини. Як історики, ми здавна усвідомлювали, що дивимося на минуле з нашого часу, і тому будь-яке застосування методів комп'ютерного зору повинно включати обговорення можливої "історичної упередженості". Оскільки (більшість) моделей комп'ютерного зору навчаються на сучасних даних, ми ризикуємо накласти упередженість цих даних, характерну для певного часу, на історичні дані. Попри те, що повне дослідження питання упередженості виходить за рамки цього уроку, про нього слід пам'ятати.

Цілі уроку

Цей урок, що складається з двох частин, має на меті:

Ознайомити з методами комп'ютерного зору на основі глибокого навчання для гуманітарних досліджень. Глибоке навчання – це розділ машинного навчання (про нього ми поговоримо більш детально у наступних уроках).
Надати опис етапів підготовки моделі глибокого навчання.
Обговорити певні міркування щодо використання глибокого навчання/комп'ютерного зору в гуманітарних дослідженнях.
Допомогти вирішити, чи може глибоке навчання бути корисним інструментом для вас.

Цей урок, що складається з двох частин, не має на меті:

Відтворити інші більш загальні введення в глибоке навчання, хоча вони охоплюють деякі з тих самих матеріалів.
Розкрити кожну деталь глибокого навчання та комп'ютерного зору, які є великими темами. Тут неможливо охопити все.

Налаштування уроку

Пропонуємо пройти цей урок у два етапи:

Спочатку прочитайте матеріали на цій сторінці, щоб ознайомитися з ключовими поняттями та загальним робочим процесом навчання моделі комп'ютерного зору.
Далі ми рекомендуємо вам запустити код цього уроку через відповідний Jupyter Notebook у Google Colab, який добре підходить для дослідницького методу, якого ми будемо дотримуватися.

У цій частині уроку, ми будемо використовувати підхід до комп'ютерного зору, заснований на глибокому навчанні. Процес налаштування середовища для глибокого навчання став простішим, але все ще може бути складним. Ми намагалися максимально спростити цей процес і рекомендуємо досить швидкий шлях до запуску коду з уроку.

Запуск записника

Ви можете запустити код уроку різними способами, але ми наполегливо рекомендуємо вам скористатися інструкціями з налаштування хмарного середовища, а не робити це локально. Це пов'язано з кількома причинами:

Процес налаштування глибокого навчання в хмарному середовищі може бути набагато простішим, ніж спроба налаштувати його локально. Багато ноутбуків і персональних комп'ютерів не мають такого типу обладнання, а процес встановлення необхідних програмних драйверів може зайняти багато часу.
Код у цьому уроці працюватиме набагато швидше, якщо доступний певний тип графічного процесора (GPU). Це дозволить застосувати інтерактивний підхід до роботи з моделями та результатами.
Графічні процесори є більш енергоефективними для деяких завдань порівняно з центральними процесорами (CPU), в тому числі для завдань, з якими ми будемо працювати в цих уроках.

Google Colab

Google Colab – це безплатний хмарний сервіс, який підтримує Jupyter Notebooks (записники) і надає безплатний доступ до обчислювальних ресурсів, включаючи графічні процесори.

Щоб запустити код уроку в Google Colab, вам потрібно:

Створити обліковий запис Google, якщо у вас його ще немає, або увійти у свій наявний. Це необхідно для збереження та запуску записників в Google Colab.
Відкрити записник (переклад).
Після того, як записник був відкритий в Google Colab, ви можете зберегти його копію на власному Google Диску. Це можна зробити, вибравши “Файл” > “Зберегти копію на Диску”.
Щоб використовувати графічний процесор, перейдіть до “Середовище виконання” > “Змінити тип середовища виконання”, потім у списку Апаратне прискорення виберіть параметр GPU (наприклад, T4 GPU) і натисніть кнопку “Зберегти”. Це увімкне прискорення графічного процесора для вашого записника. Colab час від часу змінює доступність типів графічних процесорів.

Інтерфейс записників Colab має бути вам знайомим, якщо ви раніше користувалися записниками Jupyter Notebooks. Щоб запустити комірку з кодом, натисніть кнопку відтворення зліва від комірки або, якщо комірку вибрано, натисніть комбінацію клавіш Shift + Enter або ⌘/Ctrl+Enter.
Не забудьте завершити сеанс виконання, коли закінчите роботу з записниками, щоб не витрачати виділений вам час. Це можна зробити, вибравши “Середовище Виконання” > “Керувати сеансами”, а потім натиснувши “Завершити” для активного сеансу.

У Google Colab є додаткова документація щодо використання ноутбуків, а також корисний розділ поширених запитань та відповідей щодо ефективного використання.

Локальне налаштування

Якщо ви не бажаєте використовувати інструкцію з налаштування хмарного середовища, ви можете скористатися іншими, де описано, як це зробити локально.

Короткий вступ до машинного навчання

Перш ніж перейти до першого практичного прикладу, було б корисно коротко розглянути, що мається на увазі під “машинним навчанням”. Машинне навчання має на меті дати можливість комп'ютерам “вчитися” на основі даних замість того, щоб бути явно запрограмованими на виконання певних дій. Наприклад, якщо ми хочемо відфільтрувати електронні листи зі спамом, ми можемо застосувати кілька різних підходів. Один з них полягає в тому, щоб прочитати приклади “спаму” і “не спаму” і побачити, чи можемо ми ідентифікувати ознаки його наявності в електронному листі. Наприклад, ми можемо скласти список ключових слів, які, на нашу думку, можуть вказувати на спам. Тоді ми можемо написати програму, яка робить щось подібне для кожного отриманого листа:

підрахувати кількість ключових слів в електронному листі:
    Якщо кількість ключових слів  >= 10:
        Електронний лист = спам

На противагу цьому, підхід машинного навчання тренує алгоритм машинного навчання на розмічених прикладах електронних листів, які є “спамом” або “не спамом”. Цей алгоритм на повторюваних прикладах “вивчає” закономірності, які вказують на тип електронного листа. Це приклад “керованого навчання” (supervised learning) – процесу, в якому алгоритм працює з розміченими даними, і саме на ньому буде зосереджено увагу в цьому уроці. Існують різні підходи до управління процесом навчання, деякі з них ми розглянемо в цьому уроці. Інший тип машинного навчання, який не потребує розмічених прикладів, – це “некероване навчання” (unsupervised learning).

Машинне навчання має свої переваги та недоліки. Деякі переваги в нашому прикладі з електронною поштою включають відсутність необхідності вручну визначати, що вказує на те, чи є лист спамом, або ні. Це особливо корисно, коли ознаки можуть бути ледь помітними або їх важко виявити. Якщо характеристики спаму в майбутньому зміняться, вам не потрібно буде переписувати всю програму, а можна буде натренувати модель на нових прикладах. До недоліків можна віднести вимогу щодо розмічених прикладів, створення яких може зайняти багато часу. Одне з основних обмежень алгоритмів машинного навчання полягає в тому, що може бути важко зрозуміти, як вони прийняли рішення, тобто чому лист було позначено як спам або не спам. Наслідки цього варіюються залежно від того, яку “владу” алгоритму надано в системі. Наприклад, потенційний негативний вплив від алгоритму, який автоматично приймає рішення щодо кредитної заявки, ймовірно, набагато вищий, ніж від алгоритму, який дає некорисну рекомендацію щодо фільму зі стрімінгового сервісу.

Навчання моделі класифікації зображень

Тепер, коли ми маємо загальне уявлення про машинне навчання, перейдемо до нашого першого прикладу використання глибокого навчання для комп'ютерного зору. У цьому прикладі ми створимо класифікатор зображень, який відносить зображення до однієї з двох категорій на основі розмічених навчальних даних.

Дані: Класифікація зображень з історичних газет

У цьому уроці ми працюватимемо з набором даних, отриманих з “Newspaper Navigator”. Цей набір даних складається з витягнутих візуальних матеріалів з 16 358 041 оцифрованих сторінок історичних газет, взятих з колекції Бібліотеки Конгресу США “Chronicling America” (Хроніки Америки).

Модель комп'ютерного зору віднесла ці зображення до однієї з семи категорій, включаючи фотографії та рекламу.

Дані Newspaper Navigator були створені за допомогою моделі глибокого навчання з виявленням об'єктів. Ця модель була навчена на анотаціях сторінок “Chronicling America” часів Першої світової війни, включаючи ті, що зроблені волонтерами в рамках краудсорсингового проєкту Beyond Words.

Якщо ви хочете дізнатися більше про те, як було створено цей набір даних, ви можете прочитати статтю в журналі, що описує цю роботу, або переглянути репозиторій GitHub, який містить код і навчальні дані. Ми не будемо відтворювати цю модель. Натомість ми використаємо результати цієї моделі як відправну точку для створення даних, які ми використовуємо в цьому уроці. Оскільки отримана анотація є результатом роботи моделі машинного навчання, вона буде містити помилки; поки що ми допустимо, що дані, з якими ми працюємо, є недосконалими. Певний ступінь недосконалості та помилок часто є ціною, яку ми повинні заплатити, якщо хочемо працювати з даними “в повному обсязі”, використовуючи обчислювальні методи.

Класифікація газетних оголошень

Для нашого першого застосування глибокого навчання ми зосередимося на класифікації зображень, які були визначені як реклама (пам'ятайте, що ці дані ґрунтуються на результатах передбачення роботи моделі й можуть містити певні помилки). Зокрема, ми працюватимемо з вибіркою зображень у рекламі, що охоплює 1880-5 роки.

Визначення наявності ілюстрацій в рекламних оголошеннях

Якщо ви подивитеся на рекламні зображення, то побачите, що деякі з них містять лише текст, тоді як інші мають якусь ілюстрацію.

Оголошення з ілюстрацією:

Оголошення без ілюстрації:

Наш класифікатор буде навчений передбачати, до якої категорії належить рекламне зображення. Ми можемо використовувати його для автоматизації пошуку реклами з ілюстраціями для подальшого аналізу “вручну” . Крім того, ми можемо використовувати цей класифікатор безпосередньо для кількісної оцінки кількості рекламних оголошень, що містили ілюстрації в певному році, і з'ясувати, чи змінювалася ця кількість з часом, а також як на неї впливали інші фактори, такі як місце публікації. Призначення вашої моделі впливатиме на те, на яких мітках ви обиратимете її для навчання, а також на те, як ви оцінюватимете, чи достатньо добре працює модель. Ми розглянемо ці аспекти протягом цього уроку.

Вступ до бібліотеки fastai

fastai – це бібліотека Python для глибокого навчання, “яка надає практикам високорівневі засоби, що дозволяють швидко і легко отримувати найсучасніші результати в стандартних областях глибокого навчання, а дослідникам – низькорівневі компоненти, які можна поєднувати і комбінувати для створення нових підходів”. Бібліотека розроблена fast.ai (зверніть увагу на крапку!), дослідницькою організацією, яка прагне зробити глибоке навчання більш доступним. Окрім бібліотеки fastai, fast.ai також організовує безплатні курси та проводить дослідження.

Є кілька причин, чому fastai був обраний для цього посібника:

Він спрямований на те, щоб зробити глибоке навчання доступним, зокрема, через дизайн бібліотечного API.
Він полегшує використання методів, які не потребують великої кількості даних або обчислювальних ресурсів.
Багато найкращих методів реалізовані як “за замовчуванням”, що допомагає досягти хороших результатів.
Існують різні рівні, на яких ви можете взаємодіяти з бібліотекою, залежно від того, наскільки сильно вам потрібно змінити деталі нижчого рівня.
Бібліотека розроблена на основі PyTorch, що дозволяє відносно просто використовувати наявний код.

Хоча цей урок зосереджений на fastai, багато з показаних методів можна також застосовувати в інших фреймворках.

Створення класифікатора зображень за допомогою fastai

У наступному розділі буде описано кроки, пов'язані зі створенням та навчанням класифікаційної моделі для виявлення того, чи є оголошення лише текстовим, чи також містить ілюстрацію. Якщо коротко, то наші кроки будуть такими:

Завантажити дані (посилання)
Створити модель
Натренувати модель

Ці кроки будуть розглянуті досить швидко; не хвилюйтеся, якщо ви відчуваєте, що не все зрозуміли в цьому розділі. Ми повернемося до того, що відбувається, більш детально, коли ми перейдемо до розділу про робочий процес задачі комп'ютерного зору.

Перше, що ми зробимо, це імпортуємо необхідні модулі з бібліотеки fastai. У цьому випадку ми імпортуємо vision.all, оскільки ми працюємо над задачею комп'ютерного зору.

from fastai.vision.all import *

Ми також імпортуємо Matplotlib, бібліотеку для створення візуалізацій на Python, та будемо використовувати інший стиль за допомогою методу style.use.

%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('seaborn-v0_8')

Завантаження даних

Існує декілька способів завантаження даних за допомогою бібліотеки fastai. Дані реклами складаються з папки, яка містить файли зображень, і CSV-файлу, який містить стовпець із шляхами до зображень і відповідною міткою:

Файл

Мітка

kyu_joplin_ver01_data_sn84037890_00175045338_1900060601_0108_007_6_97.jpg

text-only

Існує декілька способів завантаження цього типу даних за допомогою fastai. У цьому прикладі ми використаємо ImageDataLoaders.from_csv. Як випливає з назви, метод from_csv завантажує дані з CSV-файлу. Для його використання нам потрібно вказати кілька параметрів для правильного завантаження даних:

Шлях до папки, де зберігаються зображення та файл CSV.
Колонки у CSV-файлі, які містять мітки.
Resize() для зміни розміру всіх зображень до стандартного.

Ми створимо змінну ad_data, яка буде використовуватися для зберігання параметрів завантаження цих даних:

ad_data = ImageDataLoaders.from_csv(
    path="ads_data/",  # кореневий шлях до csv-файлу та папки з зображенням
    csv_fname="ads_upsampled.csv/",  # назва нашого csv-файлу
    folder="images/",  # папка, де зберігаються наші зображення
    fn_col="file",  # колонка з назвою файлу в нашому csv
    label_col="label",  # колонка з міткою в нашому csv
    item_tfms=Resize(224, ResizeMethod.Squish),  # зменшення розміру зображень шляхом стиснення, щоб вони мали розмір 224х224 пікселів
    seed=42,  # встановлення фіксованого seed, щоб зробити результати більш відтворюваними
)

Важливо переконатися, що дані були завантажені правильно. Один із способів швидко перевірити це – використати метод show_batch() для наших даних. Він покаже зображення і пов'язані з ними мітки для вибірки. Приклади, які ви отримаєте, будуть дещо відрізнятися від наведених тут.

ad_data.show_batch()

Це зручний спосіб перевірити, чи правильно завантажені ваші мітки й дані. Тут ви можете побачити, що мітки (text-only – текстові; та illustration – містить ілюстрації) були правильно пов'язані з тим, як ми хочемо класифікувати ці зображення.

Створення моделі

Тепер, коли fastai знає, як завантажити дані, наступним кроком буде створення моделі на їх основі. Для створення моделі, яка підходить для комп'ютерного зору, ми скористаємося функцією vision_learner. Ця функція створить “Згорткову нейронну мережу”, тип моделі глибокого навчання, що часто використовується для застосування в задачах комп'ютерного зору. Щоб скористатися цією функцією, вам потрібно вказати як мінімум такі параметри:

Дані, які модель буде використовувати як тренувальні
Тип моделі, яку ви хочете використовувати

Цього вже достатньо для створення моделі комп'ютерного зору у fastai, але ви також можете передати деякі метрики для відстеження під час навчання. Це дозволить вам краще зрозуміти, наскільки добре ваша модель виконує завдання, для якого ви її тренуєте. У цьому прикладі ми будемо використовувати accuracy (точність, співвідношення правильно передбачених випадків до загальної кількості випадків) як метрику.

Створімо цю модель і присвоїмо її новій змінній learn:

learn = vision_learner(
    ad_data,  # дані, на яких буде тренуватися модель
    resnet18,  # тип моделі, який ми хочемо використовувати
    metrics=accuracy,  # метрики для відстеження
)

Навчання моделі

Хоча ми створили модель vision_learner, насправді ми ще не навчали модель. Це робиться за допомогою методу fit. Навчання – це процес, який дозволяє моделі комп'ютерного зору “навчитися” передбачати правильні мітки для даних. Існують різні способи навчання (fit) цієї моделі. Для початку ми скористаємося методом fine_tune. У цьому прикладі єдине, що ми передамо методу fine tune – це кількість епох для тренування. Кожен прохід через весь набір даних є “епохою”. Кількість часу, яку модель витрачає на навчання, залежить від того, де ви запускаєте цей код, і від доступних ресурсів. Знову ж таки, ми розглянемо деталі всіх цих компонентів нижче.

learn.fine_tune(5)

epoch

train_loss

valid_loss

accuracy

time

0.971876

0.344096

0.860000

00:06

epoch

train_loss

valid_loss

accuracy

time

0.429913

0.394812

0.840000