Reproducible AI

Оновлено: 31.07.2023

Відтворюваність у машинному навчанні передбачає дублювання процедури ML, описаної в статті або навчальному посібнику, і досягнення тих самих результатів, що і в оригінальному творінні.

Відтворюваність ШІ має вирішальне значення при широкомасштабних розгортаннях. Вона допомагає підтвердити достовірність дослідження та його результатів, а також зменшити кількість помилок і невизначеності під час переходу моделей від розробки до експлуатації. Реплікована програма ШІ підтримує узгодженість даних у всіх конвеєрах ШІ та сприяє зменшенню кількості ненавмисних помилок.

Відтворюваний ШІ необхідний для сприяння відкритим дослідженням у технологічних групах. Експерименти з відтворюваним ШІ дозволяють технологічним спільнотам отримувати доступ до результатів досліджень, генерувати нові ідеї та реалізовувати концепції.

Труднощі з відтворенням

  • Неузгодженість гіперпараметрів. Якщо гіперпараметри за замовчуванням змінюються під час експерименту без належного документування, це може призвести до різних результатів.
  • Модифікації даних дуже ускладнюють відтворення тих самих результатів, що й оригінальні. Наприклад, неможливо досягти такого ж результату, якщо до набору даних додати більше навчальних даних після отримання результатів.
.

Неправильне перетворення даних (наприклад, очищення) і зміни в розподілі, наприклад, впливають на повторюваність дослідження.

  • Відсутність записів, ймовірно, є найбільшою перешкодою для повторюваних випробувань у машинному навчанні. Коли вхідні дані і нові судження не записані, часто буває важко відтворити результати. Такі параметри, як значення гіперпараметрів і розміри партій, коливаються протягом експерименту. Без адекватного відстеження змін цих параметрів модель неможливо зрозуміти і повторити.
  • Зміни у фреймворку ML Зміни у фреймворку ML. Оскільки фреймворки та бібліотеки ML постійно оновлюються, версія бібліотеки, яка використовувалася для отримання певного результату, може виявитися недоступною. Ці зміни можуть вплинути на кінцевий результат.
  • Випадковість. МН рясніє рандомізацією, особливо в проектах, де відбувається кілька рандомізацій.
  • Експериментування. Машинне навчання є експериментальним; модель розробляється протягом декількох ітерацій. Зміна методів, даних, середовищ, параметрів є нормальним явищем в процесі побудови моделі, і хоча це прийнятно, це створює ризик втрати важливої інформації.
  • Різниця з плаваючою комою графічного процесора. Іншою перешкодою для повторюваності є різні результати обчислень з плаваючою комою, які можуть бути спричинені апаратними налаштуваннями, налаштуваннями програми або компіляторів. Зміни у дизайні графічних процесорів також унеможливлюють відтворюваність без дотримання певних процедур.
  • Недетерміновані алгоритми, у яких вихідні дані змінюються при однакових вхідних даних у різних прогонах, створюють ще більшу проблему відтворюваності. Недетермінованість часто спостерігається під час експериментів з використанням алгоритмів глибокого навчання. Те, як агенти навчаються на основі нестаціонарного розподілу подій, на який часто впливають недетерміновані налаштування і недетерміновані правила, робить глибоке RL вразливим до недетермінізму. Недетермінованість може також виникати через графічні процесори (GPU), випадкове налаштування мережі та вибірку міні-партій.
.

Щоб подолати ці перешкоди, data scientists повинні:

  • Моніторинг змін у коді, даних та середовищі під час експерименту;
  • Документування всіх змінних коду, даних та експериментального середовища;
  • Повторне використання всіх специфічних для експерименту параметрів коду, даних та середовища.

Використання найкращих практик MLOps - оптимальний спосіб досягти повторюваності ШІ в компанії. MLOps - це процес автоматизації та уніфікації життєвого циклу АІ та ML всередині бізнесу.

Важливість повторюваності в ШІ

Відтворюваність має важливе значення як для досліджень ШІ, так і для промислових застосувань, тому що:

  • Прогрес у дослідженнях ШІ/МЛ залежить від здатності незалежних експертів аналізувати та дублювати результати досліджень. Якщо його основні компоненти не фіксуються для повторюваності, машинне навчання не може бути вдосконалене або використане в інших сферах. Відсутність повторюваності розмиває межу між маркетингом і науковим виробництвом.
.

Для використання в бізнесі відтворення ШІ дозволило б розробляти менш схильні до помилок системи ШІ. Менша кількість помилок забезпечить компаніям та їхнім споживачам більшу надійність і передбачуваність, оскільки вони зможуть визначити, які фактори призвели до певних результатів. Це необхідно для того, щоб переконати осіб, які приймають рішення, розширювати системи штучного інтелекту і дозволити більшій кількості користувачів отримувати від них користь, а також покращити командну комунікацію та співпрацю.