Precision in Machine Learning
Оновлено: 31.07.2023
Матриця конфлікту
Важливо проаналізувати матрицю плутанини, перш ніж переходити до точності та пригадування в машинному навчанні.
Клас більшості зазвичай називають негативним результатом, а клас меншості часто називають позитивним результатом.
Матриця плутанини показує не тільки результати прогнозуючої моделі, а отже, які класи передбачені точно, а які - неправильно, і які типи проблем формуються.
Двокласова задача класифікації з негативними (клас 0) та позитивними (клас 1) групами має найпростішу матрицю невизначеності.
Хибнопозитивні та хибнонегативні результати - це терміни, що використовуються для опису точності та метрик пригадування в термінах клітинок матриці невизначеності.
Точність
Наскільки модель не помиляється, коли прогнозує хороший результат?
- Формула точності в машинному навчанні = True Positives / (True Positives + False Positive)
Коли ціна хибнопозитивних результатів висока, точність допомагає. Уявімо, що йдеться про виявлення рідкісних захворювань. Якщо ми використаємо модель з низьким рівнем точності, багатьом пацієнтам буде повідомлено, що у них є хвороба, що може призвести до помилкових діагнозів.
На кону багато додаткових перевірок і стрес. Після того, як їх завалять хибними тривогами, ті, хто спостерігає за результатами, навчаться ігнорувати їх, коли кількість помилкових спрацьовувань буде занадто великою.
Тепер, коли ми розглянули матрицю плутанини і коротко визначили точність, давайте розглянемо метрику точності і зануримося в неї глибше, щоб зрозуміти, як її розрахувати.
Двійкова класифікація та точність
Ефект - це число в діапазоні від 0.0 (відсутність точності) до 1.0 (ідеальна точність).
Модель припускає, що 150 випадків належать до класу меншин, 110 з яких є правильними, а 40 - неправильними.
Точність цієї моделі оцінюється наступним чином:
- Точність = 110 / (110+40)
- Точність = 110 / 150
- Точність = 0,73
Точність прямо пропорційна точності позитивних прогнозів до всіх зроблених позитивних прогнозів, або точності прогнозів щодо класу меншин.
Це підкреслює, що, хоча точність є корисною, вона не розповідає всієї історії. У ньому не згадується, скільки насправді позитивних прикладів класів було помилково класифіковано як негативні, що призвело до так званих хибнонегативних результатів.
Багатокласова класифікація та точність
Точність визначається в задачі незбалансованої класифікації з більш ніж двома класами наступним чином:
- Формула точності у багатокласовій класифікації = Істинно позитивні в усіх класах / (Істинно позитивні + Хибно позитивні в усіх класах)
Для контексту, у вас може виникнути проблема класифікації дисбалансу, в якій клас більшості є негативним, але існують два позитивні класи меншості: клас 1 і клас 2. Точність - це метрика, яка вимірює частку точних прогнозів в обох позитивних групах.
Для першого класу меншин модель прогнозує 100 випадків, 90 з яких є правильними, а 10 - неправильними. Для другого класу - 175, з яких 150 правильних і 25 неправильних відповідей. Точність цієї моделі в ML можна визначити наступним чином:
- Точність = (90 + 150) / ((90 + 150) + (10 + 25))
- Точність = 240 / (240 + 35)
- Точність = 240 / 275
- Точність = 0,87
Точність
Точність одразу покаже нам, чи правильно навчається модель і як вона буде працювати в цілому. Однак він не надає конкретних деталей про те, як він застосовується до проблеми.
Недоліком використання точності ML як основного критерію успіху є те, що він не спрацьовує, коли існує значний класовий поділ.
Для незбалансованих наборів даних точність може бути оманливою. Розглянемо дослідження з 95 негативних значень і 5 позитивних. У цьому випадку, віднесення всіх значень до негативної категорії дає оцінку 0,95. Є кілька метрик, на які ця проблема не впливає. Класифікація всіх зразків як негативних у попередньому прикладі дає 0,5 бала, що дорівнює випадковому вгадуванню.
Висновок
Кількість передбачень позитивного класу, які на даний момент належать до позитивного класу, обчислюється з точністю до одиниці.
Точність використовується в поєднанні з відкликанням, і ці два вимірювання часто об'єднуються в показнику F1, щоб отримати єдиний розрахунок пристрою.
Варто зазначити, що поняття "точність" у сфері інформаційного пошуку відрізняється від понять "точність" і "прецизійність" в інших галузях науки і техніки.