Tree-Based Models

Оновлено: 31.07.2023

Дерево рішень використовується в деревоподібних моделях, щоб показати, як різні вхідні змінні можуть бути використані для прогнозування цільового значення. Для задач класифікації та регресії, таких як визначення виду тварин або вартості нерухомості, машинне навчання використовує деревовидні моделі. Для побудови дерева рішень вхідні змінні постійно розбиваються на підмножини, і кожна гілка перевіряється на точність прогнозу та оцінюється на предмет ефективності та результативності. Кількість шарів і розрахунків, необхідних для створення точного прогнозу, можна зменшити, розбиваючи змінні на підмножини в іншій послідовності. При створенні успішного дерева рішень найбільш важливі змінні - ті, що мають найбільший вплив на прогноз - розміщуються на вершині ієрархії дерева, в той час як неважливі характеристики видаляються.

Через низку переваг деревовидні моделі є популярною стратегією в машинному навчанні.

  • Дерева рішень легко зрозуміти та проаналізувати, а наслідки легко пояснити.
.

Їх можна використовувати як для класифікації, так і для регресійних моделей, і вони можуть приймати як категоріальні, так і числові вхідні дані. Вони перевершують інші стратегії з точки зору обчислень, навіть для великих наборів даних, і потребують меншої підготовки даних.

Створення моделей дерева рішень

Побудова моделі в основному складається з двох кроків: вибір характеристик для поділу, а потім вибір, коли зупинитися.

Метою при прийнятті рішення про те, за якими характеристиками здійснювати поділ, є вибір характеристики, яка призведе до отримання найбільш однорідних наборів даних. Мінімізація ентропії, міри непередбачуваності в наборі даних, і максимізація інформаційного приросту, зменшення ентропії, що виникає в результаті поділу за певною ознакою, є найпростішим і найбільш поширеним методом досягнення цієї мети.

  • Ви повинні розділити за ознакою, яка дає найбільший виграш в інформації, а потім перерахувати ентропію та виграш в інформації для вихідних наборів даних.
.

Найбільше значення приросту інформації порівнюється з іншими можливими розбиттями, і в цьому вузлі використовується найкраще значення приросту інформації. Моделі дерева рішень можуть розділятися на кожну числову характеристику багато разів при різних порогових значеннях, що дозволяє їм успішно справлятися з нелінійними взаємодіями.

Друге рішення, яке ви маєте прийняти - це продовжувати ділити дерево чи ні. Ви можете ділити до тих пір, поки в кожному кінцевому вузлі не залишиться дуже мало точок даних, але це майже напевно призведе до надмірної підгонки або створення моделі, яка буде надто унікальною для набору даних, на якому вона була навчена.

Це викликає занепокоєння, оскільки, хоча він може давати обґрунтовані прогнози для одного набору даних, він може погано узагальнювати нові дані, а саме цього ви й хочете.

Обрізка - це стратегія видалення частин, які мають обмежену прогностичну цінність для вирішення цієї проблеми. Встановлення максимальної глибини дерева, мінімальної кількості зразків на лист або кінцевого вузла є одними з найпоширеніших підходів до обрізання.

Переваги:

  • Проста і зрозуміла інтерпретація
  • Добре справляється з нелінійними, складними взаємозв'язками

Недоліки:

  • Оскільки поодинокі моделі не здатні до перенавчання, прогнози зазвичай хиткі.
  • Нестійкі, оскільки навіть невеликі зміни в наборі даних можуть мати значний вплив на кінцеві результати.
.

Висновок

У машинному навчанні особливо поширені деревовидні моделі. Модель дерева рішень, яка є ядром деревовидних моделей, проста для читання, але загалом є поганим прогнозом. Випадковий ліс і градієнтний бустінг - два найвідоміші ансамблеві методи для створення більш точних прогнозів на основі численних дерев. Всі деревовидні моделі добре справляються з нелінійними зв'язками і можуть бути використані для регресії або класифікації.