Regularization in Machine Learning
Оновлено: 31.07.2023
Що таке регуляризація в машинному навчанні?
Уникнення перенавчання - один з найважливіших компонентів навчання вашої моделі машинного навчання. Якщо модель надмірно пристосована, вона матиме низьку точність. Це відбувається, коли ваша модель занадто сильно намагається вловити шум у вашому навчальному наборі даних. Під шумом ми розуміємо точки даних, які не є справді репрезентативними для справжніх властивостей ваших даних, а натомість є випадковими.
- Це тип регуляризованої регресії в машинному навчанні, в якому оцінки коефіцієнтів обмежені, регуляризовані або стиснуті до нуля. Іншими словами, щоб уникнути надмірного пристосування, ця стратегія перешкоджає навчанню більш складної або гнучкої моделі.
Це проста лінійна регресійна залежність. Вивчена залежність позначається через Y, тоді як оцінки коефіцієнтів для різних змінних або предикторів позначаються через (X).
У процедурі підбору використовується функція втрат, відома як залишкова сума квадратів (RSS). Коефіцієнти підбираються таким чином, щоб функція втрат була мінімальною.
Тепер коефіцієнти будуть скориговані на основі ваших навчальних даних. Якщо навчальні дані містять шум, обчислені коефіцієнти не будуть добре узагальнювати наступні дані. Саме тоді в справу вступає регуляризація, яка зменшує або регуляризує отримані оцінки, що наближаються до нуля.
Лассо та регресія хребта
Основна відмінність між цим варіантом і регресією полягає в тому, що він штрафує високі коефіцієнти. Як штраф використовується модуль, а не квадрат β. Це називається нормою L1
- Гряда регресії подібна до розв'язання рівняння, в якому сума квадратів коефіцієнтів менша або дорівнює s. Лассо - це рівняння, в якому сума модулів коефіцієнтів менша або дорівнює s. Для кожного значення коефіцієнта усадки s є константою, яка існує. Інша назва цих рівнянь - функції обмежень.
У конкретній задачі є два параметри. Гребенева регресія може бути записана як β1² + β2² ≤ s. Це означає, що для всіх точок в межах радіуса, визначеного β1² + β2² ≤ s, коефіцієнти гребеневої регресії мають мінімальну функцію втрат.
Аналогічно, рівняння для ласо стало |β1|+|β2|≤ s. Це означає, що для всіх місць всередині ромба, визначених |β1|+|β2|≤ s, коефіцієнти ласо мають найменшу функцію втрат.
- У регресії гряд величина усадки додається до функції втрат RSS. Мінімізуючи цю функцію, тепер оцінюються коефіцієнти. Це параметр налаштування, який визначає, наскільки сильно ми хочемо обмежити гнучкість нашої моделі.
Збільшення коефіцієнтів моделі відображає збільшення гнучкості, і якщо ми хочемо мінімізувати вищезгадану функцію, ці коефіцієнти повинні бути невеликими. Методи регуляризації Ridge у машинному навчанні запобігають надмірному зростанню коефіцієнтів таким чином.
Саме тут зручно використовувати перехресну перевірку. Норма L2 відноситься до оцінок коефіцієнтів, отриманих за допомогою цієї процедури.
Коли ми множимо кожну вхідну змінну на c, відповідні коефіцієнти масштабуються з коефіцієнтом 1/c, отже, коефіцієнти, отримані за допомогою традиційного методу найменших квадратів, є еквівалентними за масштабом. В результаті множення предиктора і коефіцієнта залишається однаковим незалежно від того, як масштабується предиктор.
- Втім, це не стосується регресії гряд, тому ми повинні спочатку нормалізувати предиктори або масштабувати їх до одного масштабу, перш ніж запускати регресію гряд.
Очевидним недоліком моделі є інтерпретованість регресії є те, що вона не може бути використана для аналізу. Коефіцієнти для найменш важливих предикторів будуть зведені майже до нуля. Однак вони ніколи не будуть дорівнювати нулю. Іншими словами, всі предиктори будуть включені в остаточну модель.
Коли параметр налаштування досить великий, штраф L1, у випадку ласо, призводить до того, що деякі оцінки коефіцієнтів точно дорівнюють нулю. В результаті, метод ласо забезпечує відбір змінних, а також створює розріджені моделі.
- Регуляризація в машинному навчанні значно зменшує дисперсію моделі без суттєвого збільшення її зміщення. В результаті, параметр налаштування визначає вплив на зсув і дисперсію в процедурах регуляризації, розглянутих вище. Зі збільшенням значення параметра налаштування значення коефіцієнтів зменшується, зменшуючи дисперсію. Таке збільшення параметра налаштування є корисним до певного моменту, оскільки воно просто зменшує дисперсію (таким чином уникаючи надмірного припасування), не жертвуючи жодними важливими характеристиками даних. Однак після певного значення модель починає втрачати важливі властивості, що призводить до зсуву та недостатнього припасування. Як наслідок, значення параметра налаштування слід підбирати спеціально.
Регуляризація даних - це зручна стратегія для підвищення точності ваших регуляризованих моделей.