False Positive Rate
Оновлено: 31.07.2023
Який рівень помилкових спрацьовувань у машинному навчанні?
Коефіцієнт помилкових спрацьовувань - це показник, який можна використовувати для оцінки точності машинного навчання. Модель повинна мати певне уявлення про "реальну дійсність", або справжній стан речей, щоб отримати дані про її справжню точність. Точність моделей можна безпосередньо оцінити, порівнюючи їхні результати з реальністю.
Це найчастіше зустрічається в методах керованого навчання, де базовою істиною є набір міток, які класифікують та ідентифікують базові дані. Класифікація є прикладом керованого навчання, в якому мітки є окремим набором класів, що класифікують окремі точки даних.
На основі того, що він дізнався про історичні дані, класифікатор передбачить найбільш ймовірний клас для нових даних. Оскільки дані повністю позначені, очікуване значення можна порівняти з фактичним позначенням (істиною в останній інстанції), щоб визначити точність моделі.
У бінарній термінології прогнозування/класифікації існує чотири критерії для будь-якого результату:
- Дійсно позитивний результат - це коли аномальні дані правильно ідентифікуються як такі, наприклад, коли дані класифікуються як "аномальні", коли вони насправді є аномальними
- Справжній негатив - це коли дані правильно ідентифікуються як не аномальні, тобто коли дані класифікуються як "нормальні", коли вони насправді є нормальними. Він також відомий як специфічність, і формула в машинному навчанні виглядає як TN/(TN+FP)
- Хибне спрацьовування виникає, коли аномальні дані неправильно ідентифікуються як такі, тобто коли дані класифікуються як "аномальні", хоча насправді вони є нормальними
- Хибнонегативне спрацьовування - це коли дані помилково визначаються як такі, що не є аномальними, тобто коли дані класифікуються як "нормальні", хоча насправді вони є аномальними
Точність моделі
Оцінюючи точність моделі, найчастіше розглядають два показники - частоту правильних спрацьовувань (True Positive Rate, TPR) і частоту помилкових спрацьовувань (False Positive Rate, FPR). TPR, також відомий як "чутливість", є мірою того, скільки позитивних випадків у наборі даних правильно класифікуються як такі.
- TPR = TP / (TP+FN)
FPR - це відсоток негативних випадків у даних, які були помилково сприйняті як позитивні (тобто ймовірність того, що буде піднято хибну тривогу). Загальна кількість негативних випадків, помилково повідомлених як позитивні, поділена на загальну кількість негативних випадків (тобто нормальних даних), описується цією формулою:
- FPR = FP / (FP+TN)
Зменшення помилкових спрацьовувань в ML
Машинне навчання використовує шлях алгоритму для створення математичної моделі як відправну точку на основі результатів навчання. Це дозволяє комп'ютеру робити прогнози без необхідності бути спеціально запрограмованим для цього. Чим більше даних комп'ютер має для "навчання", тим точнішим він стає.
Цю технологію можна використовувати для розрізнення звичайних споживчих витрат і транзакцій, які можуть бути пов'язані з шахрайською комісією.
Завдяки зростанню мобільних платежів та зростаючому попиту на кращий клієнтський досвід, платежі є одним з найбільш оцифрованих сегментів фінансової індустрії. Платежі є вразливими до цифрового шахрайства, оскільки вони настільки оцифровані.
Банки, які прагнуть утримати клієнтів і відвернути їхню увагу від конкурентів, намагаються надати їм найкращий можливий досвід. Вони роблять це, зменшуючи кількість етапів перевірки, необхідних для завершення транзакції, знижуючи ефективність систем, заснованих на правилах.
Оскільки він може не тільки вивчати поточні дані і дізнаватися про споживчі моделі покупок, але й враховувати коливання витрат клієнтів протягом року, ML може заповнити цю прогалину (наприклад, подорожі в різні пори року, витрати на відпустку і т.д.).
Як наслідок, ВК може зменшити кількість хибних спрацьовувань, виявлених системами, що базуються на правилах і не здатні розпізнати аномальну, але не шахрайську за своєю суттю поведінку.
Підсумок
Частота помилкових спрацьовувань у науці про дані - це відсоток помилкових спрацьовувань у задачі бінарної класифікації порівняно з усіма позитивними прогнозами (кількість помилкових спрацьовувань та істинних спрацьовувань). Частота помилкових спрацьовувань визначається кількістю реальних негативних результатів, неправильно передбачених моделлю.
Частота помилкових спрацьовувань - одна з декількох метрик, що використовуються для оцінки ефективності роботи моделей класифікації в машинному навчанні.