Machine Learning Lifecycle
Оновлено: 31.07.2023
Життєвий цикл машинного навчання - це підхід до розробки ефективного мл-проекту. Його мета - знайти рішення проблеми або проекту.
Найважливішим аспектом всього процесу є усвідомлення того, в чому полягає проблема і чому вона існує. Як наслідок, перед початком життєвого циклу ми повинні спочатку зрозуміти проблему, оскільки успішний результат залежить від глибшого розуміння проблеми.
Щоб вирішити проблему протягом усього життєвого циклу, ви розробляєте техніку машинного навчання, яка називається "модель", і ця модель будується шляхом "навчання".
Існує сім основних етапів проекту машинного навчання.
Для того, щоб навчити модель, нам потрібні дані, тому життєвий цикл розробки ml-моделі починається зі збору даних.
Збір даних
Початковим етапом життєвого циклу машинного навчання є збір даних. Мета цього етапу - виявити та зібрати будь-які проблеми, пов'язані з даними.
На цьому етапі ми повинні визначити численні джерела даних, оскільки дані можуть бути отримані з різних джерел, включаючи файли, бази даних, Інтернет та мобільні пристрої. Це один з найважливіших етапів життєвого циклу.
Якість і кількість отриманих даних впливатимуть на ефективність результату. Чим довший життєвий цикл розвитку науки про дані, тим точніший прогноз.
Цей етап передбачає виконання наступних завдань:
- Визначити кілька джерел даних
- Збирати інформацію
- Об'єднувати інформацію, зібрану з різних джерел.
Виконавши попереднє завдання, ми отримали цілісний набір даних, також відомий як набір даних. Він буде використаний на наступних етапах.
Підготовка даних
Після збору даних ми повинні підготувати їх для подальшої обробки. Підготовка даних - це процес розміщення наших даних у відповідному місці та підготовка їх до використання в навчанні машинного навчання.
На цьому етапі ми спочатку групуємо всі дані, а потім рандомізуємо порядок даних.
Цей етап також поділяється на дві процедури:
- Класифікація даних використовується для розуміння природи даних, з якими ми працюємо. Ми повинні розуміти властивості, формат і якість даних. Краще розуміння даних призводить до більш ефективного результату. Ми виявляємо в них кореляції, загальні закономірності та викиди.
- Наступним кроком є підготовка даних до аналізу - попередня обробка даних.
Маніпулювання даними
Процес очищення та перетворення необроблених даних у придатний для використання формат відомий під назвою "обробка даних" (data wrangling). Це процес очищення даних, вибору змінної для використання та перетворення даних у формат, придатний для аналізу на наступному етапі. Це одна з найважливіших фаз у всій процедурі. Щоб вирішити проблеми з якістю, дані повинні бути очищені.
Не обов'язково, щоб зібрані нами дані завжди були цінними для нас, оскільки частина даних може ними не бути. У реальних застосуваннях отримані дані можуть мати ряд труднощів, таких як
- Значення, які відсутні
- Повторення даних
- Шум від невірних даних
Виявлення та усунення вищезазначених труднощів є необхідним, оскільки вони можуть негативно вплинути на якість машинного навчання на виробництві.
Дослідження даних
Очищені та підготовлені дані переходять до процесу аналізу. Цей етап передбачає:
- Вибір аналітичних методів
- Побудова моделі
- Моніторинг моделі машинного навчання
Мета цього етапу - створити модель машинного навчання, яка аналізуватиме дані за допомогою різних аналітичних підходів і звітуватиме про результати. Він починається з визначення типу проблеми, після чого ми обираємо методи машинного навчання, такі як класифікація, регресія, кластерний аналіз, асоціації тощо, а потім створюємо модель на основі підготовлених даних і тестуємо її.
У підсумку, на цьому етапі ви отримуєте інформацію та створюєте модель за допомогою методів машинного навчання.
Навчання
Наступним етапом є навчання моделі; на цьому етапі ми тренуємо нашу модель, щоб підвищити її продуктивність для отримання кращого рішення задачі.
Для навчання моделі ми використовуємо набори даних і кілька методів машинного навчання. Модель потрібно навчити, щоб вона могла засвоїти численні закономірності, правила та характеристики.
Тестування
Ви тестуєте модель мл і на цьому етапі перевіряєте точність вашої моделі.
Правильність моделі у % визначається шляхом її тестування на відповідність вимогам проекту або задачі.
Впровадження
Заключним етапом життєвого циклу моделі машинного навчання є розгортання, на якому ми розміщуємо модель у реальній системі.
Якщо підготовлена модель видає точні результати відповідно до наших вимог з прийнятною швидкістю, ми встановлюємо її в реальну систему. Однак, перш ніж запустити проект, ми перевіримо, чи підвищує він свою продуктивність, використовуючи доступні дані. Етап розгортання схожий на завершення фінального звіту проекту.