Machine Learning Workflows

Оновлено: 31.07.2023

Етапи робочих процесів ML

Робочі процеси машинного навчання визначають процеси, які необхідно виконати протягом певного етапу впровадження машинного навчання. Робочі процеси машинного навчання поділяються на чотири основні пакети.

  • Збір даних для машинного навчання - Одним з найважливіших етапів у робочому процесі проекту машинного навчання є збір даних. Від рівня інформації, яку ви отримуєте під час збору даних, залежить перспективність застосування та надійність вашого проекту.
.

Щоб зібрати дані, ви повинні спочатку визначити джерела, а потім об'єднати інформацію з цих систем в єдиний набір даних. Це може включати трансляцію даних з датчиків Інтернету речей, отримання наборів інформації з відкритих джерел або створення озера даних з різних носіїв чи файлів.

  • Предварительная обработка данных- Після збору даних ви повинні їх попередньо обробити. Очищення, перевірка та перетворення даних у корисний набір даних - це те, що передбачає попередня обробка. Якщо ви збираєте інформацію від одного постачальника, це може бути досить простою процедурою. Але якщо ви збираєте дані з багатьох джерел, ви повинні переконатися, що типи даних збігаються, що дані однаково точні і що будь-які потенційні дублікати видалені.
  • Створення наборів даних- На цьому кроці оброблені дані поділяються на три набори даних:

  1. Навчання - використовується для тренування алгоритму і навчання його аналізу даних. Параметри в цій колекції визначають класифікації моделі.
  2. Перевірка - використовується для вимірювання точності моделі. Параметри моделі налаштовуються за допомогою цього набору даних.
  3. Тестування - використовується для оцінки продуктивності моделей Ця колекція призначена для виявлення будь-яких недоліків у системі.
.

  • Уточнення і навчання - Отримавши набори даних, ви можете розпочати навчання вашої моделі. Для цього необхідно надати ваші навчальні дані вашій системі. Після навчання ви можете використати ваш перевірочний набір даних для вдосконалення моделі. Це може передбачати зміну або видалення змінних, а також точне налаштування гіперпараметрів до досягнення відповідного рівня точності.
  • Оцінювання машинного навчання - Нарешті, після визначення відповідного набору гіперпараметрів і налаштування точності вашої моделі, ви можете протестувати вашу модель. Управління робочим процесом машинного навчання використовує ваш тестовий набір даних, щоб переконатися, що ваші моделі використовують точні функції. Ви можете повернутися до навчання моделі, щоб підвищити точність, змінити вихідні параметри або запустити модель за необхідності у відповідь на зворотній зв'язок.
.

Недоліки робочих процесів ML

Оскільки процес машинного навчання пов'язаний з різноманітними складнощами та невизначеностями на кожному етапі процесу, контроль над ним створює нові проблеми, такі як

  • Чистота даних: Додаткові процеси очищення даних необхідні для брудних даних з неправильними або відсутніми полями, щоб перетворити інформацію у формат, визначений для робочого процесу ML.
  • Доступність і якість реальних даних для оцінювання моделі: Оскільки моделі ML часто навчаються прогнозувати мітки на основі вхідних даних, реальна інформація, яка використовується для навчання та оцінювання продуктивності моделі ML, повинна бути високої якості. Це робиться для того, щоб навчена модель могла надійно прогнозувати мітки на виробництві. З іншого боку, маркування фактичних даних може зайняти багато часу і коштувати дорого, особливо для більш складних технологічних операцій.
  • Дрейф концепції: Прогностичні моделі часто припускають, що зв'язок між вхідними і вихідними змінними залишається незмінним у часі. Оскільки багато моделей ML побудовано на минулих даних, вони не компенсують будь-які зміни у зв'язках, що лежать в основі даних. Ці зміни можуть призвести до того, що прогнози не будуть більш точно відображати статистичні особливості вихідної змінної у виробничому середовищі, що зумовлює необхідність перенавчання алгоритму ML на більш актуальних історичних даних, щоб врахувати зміни в динаміці даних.
.

Відстеження часу навчання: Кількість випробувань, які ви можете провести з різними версіями моделі ML, визначається часом, необхідним для навчання однієї ітерації моделі ML на наборі даних. Дуже важливо відстежувати точність моделі та час навчання для кожної комбінації архітектури моделі, гіперпараметрів та розміру вибірки, щоб ви могли використовувати отримані результати для оцінки компромісу між часом та точністю моделі під час навчання ММ-моделей.