Ensemble Learning

Оновлено: 31.07.2023

Ансамблеве навчання використовується в ML для отримання мудрості натовпу. Результат ансамблю, який є сукупністю моделей машинного навчання, може бути більш точним, ніж будь-який один член групи для багатьох завдань.

Припустимо, ви хочете створити модель машинного навчання для вашої організації, яка прогнозуватиме замовлення запасів на основі історичних даних за попередні роки. Ви використовуєте чотири різні методи для навчання чотирьох моделей машинного навчання: лінійну регресію, машину опорних векторів, регресійне дерево рішень і базову штучну нейронну мережу. Однак після тривалого налаштування жодна з них не досягає бажаної точності прогнозу. Через те, що вони не збігаються з цільовим рівнем, ці моделі машинного навчання називають "слабкими учнями".

Слабкість, з іншого боку, не означає неефективність. Ви можете об'єднати їх разом, щоб створити наряд. Для кожного нового прогнозу ви проганяєте вхідні дані через усі чотири моделі, а потім берете середнє арифметичне результатів. Коли ви подивитеся на новий результат, то побачите, що загальна точність становить 96%, що більш ніж достатньо.

Оскільки ваші моделі машинного навчання працюють по-різному, ансамблеве навчання є ефективним. Кожна модель може добре працювати на одних даних і погано на інших. Коли всі вони об'єднуються, їхні недоліки нівелюються.

Методи ансамблю можна використовувати як для прогнозування, так і для класифікації, наприклад, для оцінки того, чи містить зображення певний об'єкт, як у прикладі з прогнозуванням інвентаризації, який ми щойно розглянули.

Методи

Створюючи ансамбль машинного навчання, ви повинні переконатися, що ваші моделі є незалежними одна від одної (або максимально незалежними). Як видно з наведеного вище прикладу, один із способів досягти цього - створити ансамбль з декількох алгоритмів.

Інша стратегія ансамблю полягає в тому, щоб навчати окремі набори даних за допомогою різних екземплярів одних і тих самих алгоритмів машинного навчання.

Для вибірки даних з навчальної вибірки існує два основних підходи. "Агрегація за допомогою бутстрапу", часто відома як "пакування", передбачає взяття випадкових вибірок з навчальної вибірки і заміну їх новими. Підхід "вклеювання", з іншого боку, витягує вибірки "без заміни".

Після того, як ви навчили всі свої моделі машинного навчання, вам потрібно буде вибрати агрегований підхід. У задачах класифікації найчастіше використовується статистична модель або клас, який передбачається частіше за інші. У задачах регресії ансамблі часто використовують середнє значення прогнозів моделей.

Труднощі з навчанням ансамблю

Хоча ансамблеве навчання - це чудова техніка, вона має певні недоліки.

Коли ви використовуєте ансамблі, вам доведеться приділити більше часу і ресурсів для навчання ваших моделей машинного навчання. Наприклад, випадковий ліс з 1000 дерев дає значно кращі результати, ніж одне дерево рішень, але його навчання займає набагато більше часу. Якщо методи, які ви використовуєте, вимагають багато пам'яті, запуск ансамблевих моделей може бути складним.

Пояснюваність - ще одна проблема ансамблевого навчання. Хоча додавання нових моделей до ансамблю може підвищити загальну точність, це також ускладнює аналіз висновків алгоритму штучного інтелекту. Окрему модель машинного навчання, наприклад, дерево рішень, легко відстежити, але коли на виході з'являються сотні моделей, зрозуміти обґрунтування кожного вибору стає значно складніше.

Ансамбль - це один з численних інструментів для вирішення складних завдань, як і практично все інше в машинному навчанні. Він може допомогти вам вибратися зі скрутного становища, але це не панацея. Використовуйте його з розумом.