Machine Learning Model Accuracy
Оновлено: 31.07.2023
Точність моделі ML - це показник для визначення того, яка модель найкраще розрізняє асоціації та тенденції між змінними у наборі даних на основі вхідних або навчальних даних. Чим більше модель може узагальнювати "невидимі" дані, тим більше прогнозів та ідей вона може запропонувати, а отже, тим більшу ринкову вартість вона може забезпечити.
Моделі ML використовуються бізнесом для прийняття реалістичних бізнес-рішень, а більш достовірні результати моделювання призводять до кращих рішень. Помилки мають високу ціну, але підвищення точності моделі знижує цю ціну. Звичайно, існує точка, в якій вигода від розробки більш надійної ML-моделі не призводить до порівнянного збільшення прибутку, але в цілому вона є позитивною. Наприклад, хибнопозитивний діагноз раку коштує як лікарю, так і пацієнту. Переваги підвищення точності машинного прогнозування включають економію часу, ресурсів і напруги.
Як перевірити точність моделі машинного навчання?
Точність, точність і відтворення - три основні критерії, що використовуються для оцінки моделі ML
Точність - Відсоток точних прогнозів для результатів тесту називається точністю в ML.
Точність - точність класифікується як відсоток релевантних прикладів (істинно позитивних) серед усіх прикладів, які, за прогнозами, належать до даного класу.
Відтворення - Частка прикладів, які, за прогнозом, належать до класу, порівняно з усіма прикладами, які насправді належать до класу, називається відтворенням.
Оскільки ми говоримо про точність моделі машинного навчання, ось як вона обчислюється: Кількість правильних прогнозів, поділена на загальну кількість прогнозів. Правильні прогнози включають як істинні, так і хибні, а загальна кількість прогнозів включає істинні, хибні, істинні та хибнопозитивні прогнози.
Слід зазначити, що точність моделі машинного навчання не є найкращим показником моделі ML, особливо при роботі з незбалансованими за класами даними, де існує величезна різниця між позитивними та негативними результатами. Також слід враховувати точність і відгук.
Як виміряти точність моделей машинного навчання?
Робити припущення про нові дані на основі старих - ось що таке машинне навчання (ML). Точність цих припущень по суті визначає якість будь-якого алгоритму машинного навчання.
Однак не існує універсального способу оцінити якість усіх програм машинного навчання, що має далекосяжні наслідки для цінності та корисності машинного навчання.
Найвідомішим застосуванням є класифікація, а метрикою для неї є "точність". Проте існують розбіжності в поглядах на те, як можна обчислити точність і що вона має означати. Набагато складніше оцінити достовірність результатів в інших додатках. У деяких ситуаціях це також може бути питанням особистих уподобань.
Це піднімає основне питання про точність прогнозування машинного навчання: чи враховує воно серйозність помилок? Чи нормально, якщо ви маєте рацію на 95%, навіть якщо висновки, які потрапляють у провальні 5%, можуть мати катастрофічні наслідки? Чи можливо створити метрику точності, яка б враховувала серйозність помилки?
Так вважає засновник і генеральний директор Perceive Стів Тейг. Він зауважує, що поширені показники точності часто базуються на поняттях "точність" і "пригадування". Однак це лише гра цифр. Для обчислення точності (істинних і хибних) використовується кількість правильних спрацьовувань, поділена на загальну кількість спрацьовувань.
Кількість разів, коли описаний "об'єкт" був правильно класифікований, вимірюється за допомогою відкликання. Це відсоток істинних позитивних і хибнонегативних результатів, поділений на кількість істинних позитивних результатів. Вище наведені дані - це ті, які були проігноровані.
Коли класи розподілені нерівномірно, в нагоді стають пам'ять і точність. Поширеним прикладом є розробка алгоритму, який пророкує, чи має хтось хворобу, чи ні. Ми можемо створити класифікатор, який завжди прогнозує, що людина не має захворювання, якщо лише невеликий відсоток населення (скажімо, 1%) має хворобу; ми отримаємо модель, яка буде на 99% точною і на 0% корисною.
Однак, якби ми протестували відкликання цієї марної моделі, то стало б очевидно, що вона була недосконалою.
У цьому випадку нагадування означає, що ми не пропустимо хворих людей, тоді як точність ШІ гарантує, що ми не класифікуємо занадто багато людей як хворих, коли вони не хворі. Очевидно, що вам не потрібна модель ML, яка говорить вам, що у людини рак, коли у неї його немає (людина пройде через болісну і дорогу фазу одужання від хвороби, якої у неї немає), але так само вам не потрібна модель, яка прогнозує, що у людини немає раку, коли насправді він у неї є. Тому важливо оцінювати точність моделі та її відгук.