Precision in Machine Learning

Оновлено: 31.07.2023

Матриця конфлікту

Важливо проаналізувати матрицю плутанини, перш ніж переходити до точності та пригадування в машинному навчанні.

Клас більшості зазвичай називають негативним результатом, а клас меншості часто називають позитивним результатом.

Матриця плутанини показує не тільки результати прогнозуючої моделі, а отже, які класи передбачені точно, а які - неправильно, і які типи проблем формуються.

Двокласова задача класифікації з негативними (клас 0) та позитивними (клас 1) групами має найпростішу матрицю невизначеності.

Хибнопозитивні та хибнонегативні результати - це терміни, що використовуються для опису точності та метрик пригадування в термінах клітинок матриці невизначеності.

Точність

Наскільки модель не помиляється, коли прогнозує хороший результат?

  • Формула точності в машинному навчанні = True Positives / (True Positives + False Positive)

Коли ціна хибнопозитивних результатів висока, точність допомагає. Уявімо, що йдеться про виявлення рідкісних захворювань. Якщо ми використаємо модель з низьким рівнем точності, багатьом пацієнтам буде повідомлено, що у них є хвороба, що може призвести до помилкових діагнозів.

На кону багато додаткових перевірок і стрес. Після того, як їх завалять хибними тривогами, ті, хто спостерігає за результатами, навчаться ігнорувати їх, коли кількість помилкових спрацьовувань буде занадто великою.

Тепер, коли ми розглянули матрицю плутанини і коротко визначили точність, давайте розглянемо метрику точності і зануримося в неї глибше, щоб зрозуміти, як її розрахувати.

Двійкова класифікація та точність

Ефект - це число в діапазоні від 0.0 (відсутність точності) до 1.0 (ідеальна точність).

Модель припускає, що 150 випадків належать до класу меншин, 110 з яких є правильними, а 40 - неправильними.

Точність цієї моделі оцінюється наступним чином:

  • Точність = 110 / (110+40)
  • Точність = 110 / 150
  • Точність = 0,73

Точність прямо пропорційна точності позитивних прогнозів до всіх зроблених позитивних прогнозів, або точності прогнозів щодо класу меншин.

Це підкреслює, що, хоча точність є корисною, вона не розповідає всієї історії. У ньому не згадується, скільки насправді позитивних прикладів класів було помилково класифіковано як негативні, що призвело до так званих хибнонегативних результатів.

Багатокласова класифікація та точність

Точність визначається в задачі незбалансованої класифікації з більш ніж двома класами наступним чином:

  • Формула точності у багатокласовій класифікації = Істинно позитивні в усіх класах / (Істинно позитивні + Хибно позитивні в усіх класах)

Для контексту, у вас може виникнути проблема класифікації дисбалансу, в якій клас більшості є негативним, але існують два позитивні класи меншості: клас 1 і клас 2. Точність - це метрика, яка вимірює частку точних прогнозів в обох позитивних групах.

Для першого класу меншин модель прогнозує 100 випадків, 90 з яких є правильними, а 10 - неправильними. Для другого класу - 175, з яких 150 правильних і 25 неправильних відповідей. Точність цієї моделі в ML можна визначити наступним чином:

  • Точність = (90 + 150) / ((90 + 150) + (10 + 25))
  • Точність = 240 / (240 + 35)
  • Точність = 240 / 275
  • Точність = 0,87

Точність

Точність одразу покаже нам, чи правильно навчається модель і як вона буде працювати в цілому. Однак він не надає конкретних деталей про те, як він застосовується до проблеми.

Недоліком використання точності ML як основного критерію успіху є те, що він не спрацьовує, коли існує значний класовий поділ.

Для незбалансованих наборів даних точність може бути оманливою. Розглянемо дослідження з 95 негативних значень і 5 позитивних. У цьому випадку, віднесення всіх значень до негативної категорії дає оцінку 0,95. Є кілька метрик, на які ця проблема не впливає. Класифікація всіх зразків як негативних у попередньому прикладі дає 0,5 бала, що дорівнює випадковому вгадуванню.

Висновок

Кількість передбачень позитивного класу, які на даний момент належать до позитивного класу, обчислюється з точністю до одиниці.

Точність використовується в поєднанні з відкликанням, і ці два вимірювання часто об'єднуються в показнику F1, щоб отримати єдиний розрахунок пристрою.

Варто зазначити, що поняття "точність" у сфері інформаційного пошуку відрізняється від понять "точність" і "прецизійність" в інших галузях науки і техніки.