Test Set in Machine Learning

Оновлено: 31.07.2023

Валідаційні дані - це приклад даних з навчання вашої моделі, які зазвичай використовуються для оцінки компетентності моделі під час налаштування гіперпараметрів моделі.

Набір даних для валідації відрізняється від тестового набору даних, який також не використовується для навчання моделі, а натомість використовується для неупередженої оцінки навичок останньої скоригованої моделі для вибору або порівняння між моделями.

Набір даних для навчання, валідації та тестування

Навчальний набір даних - це набір даних, які були використані для підгонки моделі.

Валідаційний набір даних - це підмножина даних, які використовуються для об'єктивної оцінки відповідності моделі навчальним даним при зміні гіперпараметрів. Оскільки компетентність щодо валідаційних даних є невід'ємною частиною налаштування моделі, оцінка стає все більш упередженою.

Тестовий набір даних - це підмножина навчального набору даних, яка використовується для об'єктивної оцінки кінцевої моделі.

Існують додаткові методи для обчислення незміщеної або все більш зміщеної в контексті набору даних для валідації оцінки навичок моделі на невідомих даних.

Використання k-кратної перехресної валідації замість окремого набору даних для валідації для зміни гіперпараметрів моделі є частим прикладом.

Однак у сучасному прикладному машинному навчанні ви навряд чи зустрінете посилання на навчальні, валідаційні або тестові дані.

Якщо розробник вирішує змінити гіперпараметри моделі за допомогою навчального набору даних, посилання на "валідаційний набір даних" видаляється.

Тестові дані в порівнянні з даними валідації

При оцінюванні моделей існує чітке визначення того, що означає тестовий набір даних, навчальний набір даних і валідаційний набір даних.

"Набір даних для валідації" найчастіше використовується для опису оцінки моделі під час налаштування гіперпараметрів і підготовки даних, тоді як тестові дані найчастіше використовуються для опису оцінки моделі під час порівняння її з іншими остаточно налаштованими моделями.

При використанні різних методів повторної вибірки, таких як k-кратна перехресна перевірка, поняття даних валідації та тестових даних можуть зникнути, особливо коли методи повторної вибірки вкладені.

Навчальний набір vs тестовий набір

Переконайтеся, що ваш набір тестів задовольняє наступним двом вимогам:

Вона є достатньо великою для отримання статистично значущих результатів і відображає всю сукупність даних. Іншими словами, не обирайте тестову вибірку, яка відрізняється від навчальної.

Що ж таке набір тестів у машинному навчанні?

  • Навчальний набір - це підмножина даних, що використовується для навчання моделі
  • Тестовий набір - підмножина, що використовується для тестування навченої моделі

Ваша мета - розробити модель, яка добре узагальнює нові дані, припускаючи, що ваш тестовий набір відповідає двом обмеженням, згаданим вище. Наш тестовий набір виступає в ролі дублера для нової інформації. Припустимо, що модель, навчена на навчальних даних, є дійсно базовою. Ця модель не є ідеальною, деякі прогнози є невірними. Однак на тестових даних ця модель працює приблизно так само добре, як і на навчальних. Інакше кажучи, ця проста модель не є надмірно пристосованою до навчальних даних.

Якщо ви отримуєте напрочуд хороші результати за метриками оцінювання, можливо, ви тренуєтеся на тестовому наборі випадково. Висока точність, наприклад, може свідчити про те, що в навчальну вибірку потрапили тестові дані з машинного навчання.

  • Ніколи не тренуйтеся на тестових даних
.

Точність валідації проти точності тесту

Різниця між валідаційними та тестовими наборами (і їхньою відповідною точністю) полягає в тому, що валідаційні набори використовуються для побудови/вибору кращої моделі, тоді як тестові набори використовуються для тестування остаточної моделі. Однак у даному випадку він не використовується для вибору між моделями, його 10%, що залишилися, є тестовим набором, а не валідаційним набором.

Підсумок

Розглянемо модель, яка використовує тег заголовка, вміст листа та адресу одержувача як ознаки для визначення того, чи є лист спамом. Ми розділили дані на навчальні та тестові набори у співвідношенні 80:20. Після навчання модель досягає 99-відсоткової точності як на навчальній, так і на тестовій вибірках.

Ми очікували, що точність тестового набору буде нижчою, тому ми заглибилися в дані і виявили, що багато прикладів з тестового набору є копіями прикладів з навчального набору. Перед тим, як розділити дані, ми забули видалити з нашої вхідної бази дублікати записів для одного і того ж спаму. В результаті помилкового навчання на частині наших тестових даних ми більше не можемо правильно виміряти, наскільки добре наша модель узагальнює нові дані.