Binary Classification

Оновлено: 31.07.2023

Класифікація в машинному навчанні

У машинному навчанні та статистиці класифікація - це метод керованого навчання, в якому комп'ютерна програма навчається на основі даних і робить нові спостереження або класифікації.

Класифікація - це процес поділу набору даних на окремі класи. Він може застосовуватися як до організованих, так і до неструктурованих даних. Прогнозування класу точок даних - це перший крок у процедурі. Ціль, мітка та категорії є загальними термінами для позначення класів.

Наближення функції відображення від дискретних вхідних змінних до дискретних вихідних змінних є проблемою класифікаційного прогнозного моделювання. Основна мета полягає в тому, щоб з'ясувати, до якої категорії або класу належать нові дані.

У машинному навчанні існує кілька різних типів завдань класифікації, а саме

  • Бінарна класифікація - це те, що ми обговоримо тут трохи глибше. Задачі класифікації з двома мітками класів називаються бінарною класифікацією. У більшості задач бінарної класифікації один клас представляє нормальний стан, а інший - аберантний стан.
  • Багатокласова класифікація - Завдання класифікації з більш ніж двома мітками класів називаються багатокласовою класифікацією. Багатокласова класифікація, на відміну від бінарної класифікації, не розрізняє нормальні та патологічні результати. Замість цього приклади відносяться до одного з декількох попередньо визначених класів.
  • Багатомітка класифікація - Класифікаційні задачі з двома або більше мітками класів, де для кожного випадку можна передбачити одну або більше міток класів, називаються багатоміткою класифікацією. Вона відрізняється від бінарної та багатокласової класифікації, які передбачають одну мітку класу для кожного випадку.
.

Ближчий погляд на бінарну класифікацію.

Як ми вже обговорювали і як випливає з назви, бінарна класифікація в глибокому навчанні відноситься до типу класифікації, де ми маємо дві мітки класів - одну нормальну і одну ненормальну. Деякі приклади використання бінарної класифікації:

  • Визначити, чи є електронна пошта спамом чи ні
  • Визначити, чи є у пацієнта певне захворювання в медицині.
  • Визначити, чи були дотримані специфікації якості, коли мова йде про QA (Quality Assurance).
.

Наприклад, нормальний клас означає, що у пацієнта є захворювання, а аномальний клас - що його немає, або навпаки.

Як і будь-який інший тип класифікації, вона настільки хороша, наскільки хороший набір даних бінарної класифікації, який вона має - або, іншими словами, чим більше навчання і даних вона має, тим вона краща.

Точність моделі машинного навчання - це один з численних показників, що використовуються для оцінки прогресу в задачі класифікації. Кількість правильних вгадувань, поділена на загальну кількість прогнозів, є точністю: точність = кількість правильних вгадувань / загальна кількість. Оцінка точності 1.0 буде присвоєна моделі, яка завжди прогнозує точно. Коли класи в наборі даних зустрічаються приблизно з однаковою частотою, точність є підходящою статистикою для використання, за інших рівних умов.

Точність (і більшість інших мір категоризації) мають той недолік, що їх не можна використовувати як функцію втрат. SGD вимагає гладкої функції втрат, але точність, як відношення кількості підрахунків, коливається "стрибкоподібно". Як наслідок, ми повинні знайти заміну функції втрат. Такою заміною є функція перехресної ентропії.

Існує досить багато різних алгоритмів, що використовуються для бінарної класифікації. Два алгоритми, які розроблені лише для бінарної класифікації (тобто вони не підтримують більше двох міток класів), - це логістична регресія та машини опорних векторів. Кілька інших алгоритмів: Найближчі сусіди, Дерева рішень та Наївний Байєс.

  • Логістична регресія - це алгоритм класифікації машинного навчання, який використовує одну або кілька незалежних змінних для отримання результату. Для оцінки результату використовується дихотомічна змінна, що означає, що існує лише два можливих результати. Мета логістичної регресії - визначити найкращу відповідність між залежною змінною та набором незалежних змінних. Вона перевершує інші алгоритми бінарної класифікації, такі як метод найближчого сусіда, оскільки кількісно оцінює елементи, які призводять до категоризації.
  • Машина опорних векторів - Машина опорних векторів - це алгоритм класифікації, який зображує навчальні дані у вигляді точок у просторі, розділених на категорії на якомога більшій відстані, наскільки це можливо. Після цього нові точки додаються до простору, вгадуючи, до якої категорії вони потраплять і який простір займуть. Функція прийняття рішення використовує підмножину навчальних точок, що робить її економною по відношенню до пам'яті і дуже ефективною у просторах високої розмірності. Єдиним недоліком машини опорних векторів є те, що цей підхід не відразу пропонує оцінки ймовірності.
.