Multi-class Classification
Оновлено: 31.07.2023
Що таке класифікаційне машинне навчання
Перш ніж перейти до класифікації, давайте подивимося, що таке контрольоване навчання. Уявімо, що ви намагаєтеся вивчити новий арифметичний прийом і, виконавши завдання, хочете перевірити розв'язання, щоб переконатися, чи правильно ви його виконали. Коли ви будете впевнені у своїх здібностях розв'язувати задачі певного типу, ви перестанете звертатися до розв'язків і спробуєте відповісти на них самостійно.
Так само функціонують моделі машинного навчання в керованому навчанні. Модель у керованому навчанні навчається в процесі роботи. Ми також надаємо нашій моделі правильні мітки, які відповідають нашим вхідним змінним. Під час навчання модель вивчає, які мітки відносяться до наших даних, і в результаті здатна виявити закономірності між нашими даними і цими мітками.
Навчання під контролем можна розділити на класифікацію та регресію. Тут ми будемо говорити про класифікацію. А точніше - про багатокласову класифікацію.
Класифікація - це процес розпізнавання, осмислення та розподілу речей і думок на заздалегідь визначені групи, іноді відомі як "субпопуляції". Системи машинного навчання використовують різноманітні методи для класифікації майбутніх наборів даних у відповідні та релевантні категорії, використовуючи ці попередньо класифіковані навчальні набори даних.
Алгоритми класифікації машинного навчання використовують вхідні навчальні дані для оцінки ймовірності того, що наступні дані потраплять до однієї з визначених категорій.
У машинному навчанні існує кілька різних типів завдань класифікації, а саме
- Бінарна класифікація - це те, що ми обговоримо тут трохи глибше. Задачі класифікації з двома мітками класів називаються бінарною класифікацією. У більшості завдань бінарної класифікації один клас представляє нормальний стан, а інший - аберантний стан.
- Багатокласова класифікація - Завдання класифікації з більш ніж двома мітками класів називаються багатокласовою класифікацією. Багатокласова класифікація в машинному навчанні, на відміну від бінарної класифікації, не розрізняє нормальні та патологічні результати. Замість цього приклади відносяться до одного з декількох попередньо визначених класів.
- Багатокласова класифікація - Задачі класифікації з двома або більше мітками класів, де для кожного випадку можна передбачити одну або більше міток класів, називаються багатокласовою класифікацією. Вона відрізняється від бінарної та багатокласової класифікації, які передбачають одну мітку класу для кожного випадку.
Багатокласна класифікація
Багатокласова класифікація є, мабуть, найпопулярнішим завданням машинного навчання, окрім регресії.
Наука, що стоїть за цим поняттям, однакова, незалежно від того, як воно пишеться - багатокласовий чи багатокласовий. Завдання ML-класифікації з більш ніж двома виходами або класами відома як багатоознакова класифікація. Оскільки кожне зображення можна віднести до багатьох різних категорій тварин, використання моделі машинного навчання для ідентифікації видів тварин на фотографіях з енциклопедії є прикладом багатокласової класифікації. Багатокласова класифікація також вимагає використання лише одного класу у вибірці (тобто слон - це тільки слон, а не лемур).
Ми маємо набір навчальних вибірок, розділених на K різних класів, і створюємо модель ML для прогнозування того, до якого з цих класів належать деякі раніше невідомі дані. Модель вивчає закономірності, характерні для кожного класу, з навчального набору даних і використовує ці закономірності для прогнозування класифікації майбутніх даних.
Деякі з найпопулярніших алгоритмів для багатокласових класифікацій:
- Дерева рішень - Модель класифікації будується за допомогою методу дерева рішень у вигляді деревовидної структури. Вона використовує принципи "якщо-тоді", які є вичерпними і взаємовиключними, коли мова йде про категоризацію. Процес продовжується з розбиттям даних на менші структури і, нарешті, з'єднанням їх в інкрементне дерево рішень. Готовий продукт нагадує дерево з вузлами та листям. Правила вивчаються одне за одним, одне за одним, використовуючи навчальні дані. Кортежі, що покривають правила, видаляються кожного разу, коли вивчається нове правило. На навчальній множині процедура продовжується до тих пір, поки не буде досягнута точка завершення. k-найближчих сусідів - це метод лінивого навчання на основі n-вимірного простору, який зберігає всі ділянки, що відповідають навчальним даним. Він є лінивим, оскільки зосереджується на збереженні ділянок навчальних даних, а не на побудові широкої внутрішньої моделі. Для класифікації використовується більшість голосів k найближчих сусідів кожної точки. Він контролюється і використовує набір ідентифікованих точок для класифікації/маркування інших точок. Він дивиться на позначені точки, найближчі до нової точки, зазвичай відомі як її найближчі сусіди, щоб позначити її. Він опитує цих сусідів, і той, чия мітка отримає найбільшу кількість голосів, стає міткою нової точки.