Model Selection

Оновлено: 31.07.2023

Вступ

Машинне навчання - це, на найпростішому рівні, поєднання статистики та обчислень. Машинне навчання базується на понятті алгоритмів або моделей, які є статистичними здогадками, піднятими на новий рівень.

Однак, залежно від розподілу даних, кожна запропонована модель має багато недоліків. Оскільки вони є лише оцінками, жодна з них не може бути абсолютно правильною. Для опису цих обмежень зазвичай використовують терміни "зсув" і "дисперсія".

Модель з великим зміщенням буде занадто спрощеною, ігноруючи навчальні точки.

Не узагальнюючи тестові точки, яких вона не бачила раніше, модель з високою дисперсією обмежиться навчальними даними.

Коли обмеження незначні, наприклад, при виборі між методом випадкового лісу і градієнтним підходом, або між двома варіантами одного і того ж алгоритму дерева рішень, з'являється проблема. Обидва варіанти матимуть багато розбіжностей і невелику похибку.

Різні типи вибору моделі

Після того, як різні моделі були розглянуті на основі відповідних критеріїв, вибір моделі - це стратегія вибору найкращої моделі.

Методи передискретизації - це базові стратегії для перегрупування вибірок даних, щоб перевірити, чи добре працює модель на вибірках даних, на яких вона не навчалася. Інакше кажучи, передискретизація дозволяє нам побачити, чи буде модель ефективно узагальнювати.

Випадкові розбиття використовуються для випадкової вибірки частини даних і поділу їх на навчальну, тестову та, в ідеалі, валідаційну вибірки. Перевага цієї стратегії полягає в тому, що вихідна сукупність, швидше за все, буде добре представлена в усіх трьох групах. Інакше кажучи, випадковий розподіл запобігає упередженому відбору даних.

Важливо пам'ятати, що валідаційний набір використовується при виборі моделі. Валідаційний набір - це другий тестовий набір, і цілком зрозуміло, чому їх два.

Тестовий набір використовується для оцінки моделі на етапі відбору та налаштування. Це означає, що параметри моделі та набір функцій були обрані таким чином, щоб отримати найкращі результати на тестовому наборі. В результаті для остаточного оцінювання використовується валідаційний набір, який містить повністю невидимі точки даних.

Підхід перехресної перевірки полягає у випадковому перемішуванні набору даних, а потім поділі його на k груп. Після цього, під час ітерації над кожною групою, цю групу слід розглядати як тестовий набір, тоді як решту груп слід об'єднати в навчальний набір. Потім модель тестується на тестовій групі, і процедура повторюється для решти k груп.

В результаті, після завершення процедури, ви отримаєте k різних результатів для тестових груп. Після цього можна легко вибрати найкращу модель, обравши модель з найвищим балом.

Методика стратифікованої k-кратної перевірки подібна до методики k-кратної перехресної перевірки з однією суттєвою відмінністю: на відміну від k-кратної перехресної перевірки, стратифікована k-кратна перевірка враховує значення цільової змінної.

Одним з найпотужніших методів отримання стабільної моделі є використання Bootstrap. Оскільки він базується на понятті випадкової вибірки, він схожий на метод випадкового розбиття.

Перший крок - визначити, наскільки великою буде ваша вибірка (яка зазвичай дорівнює розміру вихідного набору даних). Після цього потрібно вибрати випадкову точку даних з вихідного набору даних і додати її до вибірки бутстрапу. Після додавання вибірку потрібно повернути до вихідної вибірки. Цю процедуру необхідно виконати N разів, де N - розмір вибірки.

Отже, бутстрап-вибірка створюється шляхом вибірки точок даних з вихідного набору даних із заміною, що є підходом повторної вибірки. Це означає, що в бутстрап-вибірці може бути знайдено багато входжень однієї і тієї ж точки даних.

Модель навчається на завантаженій вибірці, а потім тестується на будь-яких точках даних, які не були включені до завантаженої вибірки. Це так звані вибірки поза пакетом.

Примітки

Процедури вибору та оцінки моделі можуть здатися складними на перший погляд, але з практикою та ефективним розподілом часу вони стають другою натурою. Різні виклики вимагають різних підходів, і вам слід обирати методи, які найбільше підходять для вашого проекту.