Bias-variance Tradeoff

Оновлено: 31.07.2023

Основними параметрами, які слід змінювати під час навчання моделі, є дисперсія та зсув у середовищі машинного навчання.

Коли ми говоримо про моделі прогнозування, ми можемо розділити помилки прогнозування на дві категорії: помилка через упередженість і помилка через дисперсію.

  • Напруга між похибкою, внесеною зміщенням, і похибкою, створеною варіацією, відома як компроміс між зміщенням і дисперсією

Дуже важливо розуміти помилки прогнозування, коли ми говоримо про прогнозування моделі (зсув і дисперсію). Здатність моделі мінімізувати похибку та дисперсію є компромісом. Глибоке розуміння цих недоліків допоможе нам не лише будувати правильні моделі, але й уникати помилок надмірної та недостатньої пристосованості.

Упередженість

Різниця між прогнозами моделі та істинними значеннями називається помилкою зміщення. У цій формі помилки модель ігнорує навчальні дані, спрощує модель і не розпізнає закономірності. Оскільки модель не враховує всі особливості, вона засвоює неправильні взаємозв'язки.

  • Розбіжність між середнім прогнозом нашої моделі та правильним значенням, яке ми прагнемо передбачити, називається похибкою

Модель з великим зміщенням приділяє мало уваги навчальним даним і спрощує їх. Це завжди призводить до високого рівня неточності як на навчальних, так і на тестових даних.

Різниця

Варіабельність прогнозу моделі для певної точки даних або значення, що вказує на розкид наших даних. У цій формі помилки модель настільки зосереджується на навчальних даних, що запам'ятовує їх, а не вчиться на них. Модель з високою помилкою дисперсії не здатна узагальнювати дані, які вона ніколи раніше не бачила.

  • Змінність прогнозу моделі для конкретної точки даних або значення, яка говорить нам про дисперсію наших даних, відома як дисперсія

Високодисперсійна модель приділяє пильну увагу навчальним даним і не узагальнює дані, яких вона раніше не бачила. В результаті, хоча такі моделі добре працюють на навчальних даних, вони мають високий рівень помилок на тестових даних.

Компроміс між зміщенням та дисперсією

Метою алгоритму машинного навчання з навчанням під наглядом є оптимальне прогнозування функції f (відображення) для змінної Y (вихід) на основі даних X (вхід). Оскільки це функція, яку намагається імітувати алгоритм машинного навчання, функція відображення також відома як цільова функція.

Невідповідність відбувається в керованому навчанні, коли модель не може зрозуміти основну закономірність даних. Такі моделі характеризуються низькою дисперсією і великим зміщенням. Це відбувається, коли недостатньо даних для розробки відповідної моделі або при спробі розробити лінійну модель з нелінійними даними.

Крім того, певні типи моделей, такі як лінійна та логістична регресія, особливо прості у використанні для відображення складних закономірностей у даних.

Надмірне припасування відбувається в керованому навчанні, коли наша модель вловлює як шум, так і основну закономірність у даних. Коли ми навчаємо нашу модель на великій кількості зашумлених наборів даних, щось відбувається. Ці моделі мають велику дисперсію та низьку похибку. Ці моделі надзвичайно складні і схильні до надмірного пристосування.

  • Ухил проти дисперсії → Модель недостатньої відповідності проти моделі надмірної відповідності

Наша модель може мати низьку дисперсію і, з іншого боку, високе зміщення, якщо вона занадто спрощена і містить лише кілька параметрів. Якщо ж наша модель містить велику кількість параметрів, вона матиме високу дисперсію та низьке зміщення. Таким чином, без надмірної або недостатньої підгонки даних, ми повинні знайти правильний/хороший баланс.

Неможливо, щоб алгоритм був одночасно більш складним і менш складним.

  • Щоб побудувати хорошу модель, ми повинні знайти збалансований компроміс між зміщенням і дисперсією, який мінімізує загальну похибку
.

Модель ніколи не буде недостатньо або надмірно пристосована, якщо дисперсія та зміщення будуть ідеально збалансовані.

Як наслідок, розуміння концепції компромісу між зміщенням і дисперсією є важливим для розуміння поведінки моделі прогнозування.

Підсумки

Спрощувальні припущення моделі спрощують цільову функцію, що полегшує її оцінку.

Дисперсія означає, наскільки сильно коливатиметься оцінка цільової функції в результаті зміни навчальних даних.

Напруга між похибкою, спричиненою зміщенням, і дисперсією відома як компроміс.