Overfitting in Machine Learning
Оновлено: 31.07.2023
Що таке оверфітінг у машинному навчанні?
Коли модель засвоює інформацію та шум під час навчання до такої міри, що це погіршує продуктивність моделі на нових даних, це називається перенавчанням даних. Це означає, що модель вловлює шум або випадкові коливання в навчальних даних і засвоює їх як ідеї.
- Модель, яка надмірно відповідає навчальним даним, називається перенавчанням
Проблема в тому, що ці поняття не застосовуються до свіжих даних, що обмежує здатність моделей до узагальнення.
Непараметричні та нелінійні моделі, які мають більшу гнучкість при вивченні цільової функції, більш схильні до перенавчання. Як наслідок, багато непараметричних алгоритмів машинного навчання включають параметри або стратегії, які обмежують і стримують кількість деталей, що вивчаються моделлю.
Наприклад, дерева рішень - це непараметрична техніка машинного навчання, яка є надзвичайно універсальною, але вразливою до надмірної кількості навчальних даних. Цю проблему можна вирішити шляхом обрізання дерева після того, як воно навчиться видаляти частину зібраної інформації.
Як виявити оверфітінг?
Перенавчання в машинному навчанні має той недолік, що ми не можемо сказати, наскільки добре наша модель працюватиме на нових даних, поки не протестуємо її.
Щоб вирішити цю проблему, ми можемо розділити наш початковий набір даних на навчальні та тестові підмножини. Ця стратегія може дати нам приблизне уявлення про те, наскільки добре наша модель працюватиме з додатковими даними.
Якщо наша модель працює значно краще на навчальній вибірці, ніж на тестовій, це означає, що ми, ймовірно, підібрали надмірну кількість параметрів.
Наприклад, якби наша модель мала 95% точності на навчальній вибірці, але лише 65% точності на тестовій вибірці, це було б значним червоним сигналом.
Інша пропозиція полягає в тому, щоб почати з найпростішої моделі, яка слугуватиме базовою лінією.
Тоді, коли ви будете тестувати все більш складні алгоритми, у вас буде еталон, за яким ви зможете оцінити, чи варто додавати складність.
- Розділіть початковий набір даних на навчальну та тестову підмножини і почніть з базової моделі, щоб виявити перенавчання в ai
Як уникнути надмірного пристосування?
Виявлення оверфітингу корисне, але воно не вирішує проблему. На щастя, у вас є безліч рішень, як запобігти надмірній адаптації моделі.
Нові ітерації покращують модель після обробки певної кількості вибірок. Однак, коли модель починає надмірно підлаштовуватися під навчальні дані, здатність моделі до узагальнення погіршується.
Зупинка процесу навчання до того, як учень досягне цієї точки, називається ранньою зупинкою. Цей метод зараз переважно застосовується в глибокому навчанні, а альтернативні методи (наприклад, регуляризація) використовуються для класичного машинного навчання.
Перехресна перевірка є ефективним інструментом для уникнення надмірної пристосованості.
Концепція проста: побудуйте безліч крихітних розбивок тренувань-тестів, використовуючи початкові навчальні дані. Ці розбиття можна використовувати для точного налаштування моделі.
Ми розбиваємо дані на k підмножин, або складок, для типової k-кратної перехресної перевірки. Потім метод ітеративно навчається на k-1 згинах, а згин, що залишився, слугує тестовим набором.
Надмірне або недостатнє оснащення
Коли модель є занадто спрощеною - заснованою на занадто малій кількості характеристик або надмірно регуляризованою - вона стає негнучкою в навчанні на основі набору даних, що призводить до недостатньої пристосованості.
Прогнози простих учнів мають меншу волатильність, але вони більш схильні до неправильних результатів. З іншого боку, складні учні мають більшу дисперсію у своїх прогнозах.
У машинному навчанні зсув і дисперсія є обома типами помилок прогнозування.
У більшості випадків ми можемо зменшити похибку від зсуву, одночасно збільшуючи похибку від дисперсії, або навпаки.
Компроміс між занадто простим (висока похибка) і занадто складним (висока дисперсія) є фундаментальною ідеєю в статистиці та машинному навчанні, і вона впливає на всі методи навчання з навчанням під наглядом.
Підсумок
Окрім машинного навчання, надмірна адаптація в науці про дані також є типовою проблемою. Продуктивність моделі може погіршитися як через надмірну, так і через недостатню пристосованість. У прикладному ML перенавчання є найпоширенішою проблемою.
Надмірна пристосованість викликає занепокоєння, оскільки оцінка алгоритмів машинного навчання на навчальних даних відрізняється від оцінки того, наскільки добре система працює на невидимих даних, а саме це нас дійсно хвилює.
K-кратна перехресна перевірка - найпоширеніший підхід до ресемплінгу. Він дозволяє вам k-кратно навчати і тестувати модель на різних підмножинах навчальних даних і будувати оцінку продуктивності моделі машинного навчання на непередбачуваних даних.