Bias-variance Tradeoff
Оновлено: 31.07.2023
Основними параметрами, які слід змінювати під час навчання моделі, є дисперсія та зсув у середовищі машинного навчання.
Коли ми говоримо про моделі прогнозування, ми можемо розділити помилки прогнозування на дві категорії: помилка через упередженість і помилка через дисперсію.
- Напруга між похибкою, внесеною зміщенням, і похибкою, створеною варіацією, відома як компроміс між зміщенням і дисперсією
Дуже важливо розуміти помилки прогнозування, коли ми говоримо про прогнозування моделі (зсув і дисперсію). Здатність моделі мінімізувати похибку та дисперсію є компромісом. Глибоке розуміння цих недоліків допоможе нам не лише будувати правильні моделі, але й уникати помилок надмірної та недостатньої пристосованості.
Упередженість
Різниця між прогнозами моделі та істинними значеннями називається помилкою зміщення. У цій формі помилки модель ігнорує навчальні дані, спрощує модель і не розпізнає закономірності. Оскільки модель не враховує всі особливості, вона засвоює неправильні взаємозв'язки.
- Розбіжність між середнім прогнозом нашої моделі та правильним значенням, яке ми прагнемо передбачити, називається похибкою
Модель з великим зміщенням приділяє мало уваги навчальним даним і спрощує їх. Це завжди призводить до високого рівня неточності як на навчальних, так і на тестових даних.
Різниця
Варіабельність прогнозу моделі для певної точки даних або значення, що вказує на розкид наших даних. У цій формі помилки модель настільки зосереджується на навчальних даних, що запам'ятовує їх, а не вчиться на них. Модель з високою помилкою дисперсії не здатна узагальнювати дані, які вона ніколи раніше не бачила.
- Змінність прогнозу моделі для конкретної точки даних або значення, яка говорить нам про дисперсію наших даних, відома як дисперсія
Високодисперсійна модель приділяє пильну увагу навчальним даним і не узагальнює дані, яких вона раніше не бачила. В результаті, хоча такі моделі добре працюють на навчальних даних, вони мають високий рівень помилок на тестових даних.
Компроміс між зміщенням та дисперсією
Метою алгоритму машинного навчання з навчанням під наглядом є оптимальне прогнозування функції f (відображення) для змінної Y (вихід) на основі даних X (вхід). Оскільки це функція, яку намагається імітувати алгоритм машинного навчання, функція відображення також відома як цільова функція.
Невідповідність відбувається в керованому навчанні, коли модель не може зрозуміти основну закономірність даних. Такі моделі характеризуються низькою дисперсією і великим зміщенням. Це відбувається, коли недостатньо даних для розробки відповідної моделі або при спробі розробити лінійну модель з нелінійними даними.
Крім того, певні типи моделей, такі як лінійна та логістична регресія, особливо прості у використанні для відображення складних закономірностей у даних.
Надмірне припасування відбувається в керованому навчанні, коли наша модель вловлює як шум, так і основну закономірність у даних. Коли ми навчаємо нашу модель на великій кількості зашумлених наборів даних, щось відбувається. Ці моделі мають велику дисперсію та низьку похибку. Ці моделі надзвичайно складні і схильні до надмірного пристосування.
- Ухил проти дисперсії → Модель недостатньої відповідності проти моделі надмірної відповідності
Наша модель може мати низьку дисперсію і, з іншого боку, високе зміщення, якщо вона занадто спрощена і містить лише кілька параметрів. Якщо ж наша модель містить велику кількість параметрів, вона матиме високу дисперсію та низьке зміщення. Таким чином, без надмірної або недостатньої підгонки даних, ми повинні знайти правильний/хороший баланс.
Неможливо, щоб алгоритм був одночасно більш складним і менш складним.
- Щоб побудувати хорошу модель, ми повинні знайти збалансований компроміс між зміщенням і дисперсією, який мінімізує загальну похибку
Модель ніколи не буде недостатньо або надмірно пристосована, якщо дисперсія та зміщення будуть ідеально збалансовані.
Як наслідок, розуміння концепції компромісу між зміщенням і дисперсією є важливим для розуміння поведінки моделі прогнозування.
Підсумки
Спрощувальні припущення моделі спрощують цільову функцію, що полегшує її оцінку.
Дисперсія означає, наскільки сильно коливатиметься оцінка цільової функції в результаті зміни навчальних даних.
Напруга між похибкою, спричиненою зміщенням, і дисперсією відома як компроміс.