Classification Threshold
Оновлено: 31.07.2023
Що таке поріг у машинному навчанні
Легше пояснити на прикладі, тож почнемо:
Ймовірність повертається за допомогою логістичної регресії. Ви можете використовувати повернутий шанс "як є" або перетворити його на двійкове число. Модель машинного навчання логістичної регресії з результатом 0,9898 прогнозує, що імейл з високою ймовірністю є спамом. З іншого боку, інше повідомлення (електронний лист) з результатом 0,0002 на тій же регресійній моделі ML, майже напевно не є спамом. А як щодо листа з прогнозованою оцінкою 0,6843? Якщо ви хочете перевести значення логістичної регресії в бінарну категорію, необхідно визначити порогове значення класифікації. Значення, більше за нього, означає "спам", тоді як значення, менше за нього, - "не спам". Легко припустити, що поріг класифікації завжди буде дорівнювати 0,5... однак пороги машинного навчання залежать від конкретної проблеми і повинні бути точно налаштовані.
За певних обставин найкращий поріг для класифікатора можна отримати безпосередньо, наприклад, при використанні кривих точного відгуку та ROC-кривих. За інших обставин для точного налаштування порогу та пошуку найкращого значення можна використовувати пошук по сітці.
Багато методів машинного навчання здатні передбачати ймовірність належності до класу або оцінку. Це дуже важливо, оскільки дає змогу оцінити впевненість або невизначеність прогнозу. Це також дає більше деталей, ніж просто передбачення інтерпретованої мітки класу.
Деякі задачі класифікації потребують точного прогнозу мітки класу. Це означає, що навіть якщо передбачається ймовірність належності до класу або оцінка, вона повинна бути перетворена на точну назву класу. Поріг визначає вибір перетворення прогнозованої ймовірності або балів на назву класу. Для нормалізованих прогнозованих ймовірностей в діапазоні від 0 до 1 поріг за замовчуванням встановлено на 0,5.
У задачі бінарної класифікації з нормалізованими прогнозованими ймовірностями, мітками класів 1 і 0 та порогом 0,5, наприклад, значення, менші за поріг, відносяться до класу 1, тоді як значення, більші або рівні порогу, відносяться до класу 0.
Клас 1 = Прогнозування < 0.5
Клас 0 = Прогнозування => 0.5
Поріг за замовчуванням може бути не найкращим способом зрозуміти очікувану ймовірність - ось у чому проблема.
Це може статися з різних причин, зокрема:
- Очікувані ймовірності, наприклад, передбачені деревом рішень, не відкалібровані.
- Метрика для навчання моделі відрізняється від тієї, що використовується для оцінки моделі після її завершення.
- Розподіл класів суттєво викривлений.
- Ціна однієї форми неправильної класифікації є більш значною, ніж вартість іншої.
Для вирішення проблеми незбалансованої класифікації можна використовувати багато стратегій, таких як повторна вибірка навчального набору даних і розробка індивідуальних версій алгоритмів машинного навчання.
Тим не менш, зміна порогу прийняття рішень може бути найпростішим способом подолання значного класового дисбалансу. Ця стратегія часто ігнорується як практиками, так і науковцями, незважаючи на її простоту та ефективність.
На тестовому наборі даних ROC-крива - це діагностична карта, яка досліджує набір ймовірнісних прогнозів, зроблених моделлю, і є однією з метрик класифікації в машинному навчанні.
Частота істинно-позитивних і хибно-позитивних прогнозів щодо позитивного класу (меншини) інтерпретується за допомогою набору різних порогових значень, а результати відображаються у вигляді лінії зростаючих порогових значень для побудови кривої.
Крива робочих характеристик приймача, або ROC-крива, - це фігура, на якій вісь x відображає частоту хибнопозитивних результатів, а вісь y - частоту реальних позитивних результатів.
"Крива" класифікатора без навичок (яка завжди передбачає клас більшості) показана на графіку діагональною лінією знизу вгору праворуч, а точка у верхньому лівому куті графіка представляє модель з досконалими навичками.
Крива ROC є корисним діагностичним інструментом для визначення компромісу між різними пороговими значеннями, а ROC AUC є корисною метрикою для порівняння моделей на основі їхніх загальних можливостей.
Крива точності пригадування, на відміну від ROC-кривої, фокусується виключно на результатах роботи класифікатора на позитивних (клас меншин).
Відношення істинних спрацьовувань до суми істинних спрацьовувань і хибних спрацьовувань називається точністю. Вона показує, наскільки добре модель прогнозує позитивний клас. Для визначення пригадування використовується кількість істинних спрацьовувань, поділена на загальну кількість істинних спрацьовувань і хибних спрацьовувань. Терміни "відгук" і "чутливість" взаємозамінні.
Крива "точність-відтворення" генерується шляхом визначення чітких міток класів для ймовірнісних прогнозів у діапазоні порогових значень і вимірювання точності та відтворення для кожного порогового значення окремо. Порогові значення відкладаються в порядку зростання на лінійному графіку з відкладенням пригадування на осі х та точності на осі у.