Supervised Learning

Оновлено: 31.07.2023

Контрольоване машинне навчання - це алгоритм, який використовує марковані навчальні дані для прогнозування результатів немаркованих даних. У контрольованому навчанні ви використовуєте добре марковані дані для навчання машини. Поряд з неконтрольованим навчанням і навчанням з підкріпленням, це одна з трьох основних парадигм машинного навчання.

Це означає, що певна інформація вже позначена правильними відповідями. Це можна порівняти з навчанням у присутності інструктора або керівника.

Для успішного створення, масштабування та розгортання коректних моделей машинного навчання під наглядом потрібен час і технічні знання від команди висококваліфікованих фахівців з аналізу даних. Крім того, аналітики даних повинні оновлювати моделі, щоб гарантувати, що отримані висновки залишатимуться актуальними, навіть якщо дані зміняться.

Тож як саме це працює? У керованому навчанні використовується набір даних, щоб навчити моделі видавати бажані результати. Цей набір даних містить як правильні, так і неправильні результати, що дозволяє моделі вдосконалюватися з часом. Функція втрат використовується для оцінки правильності алгоритму, і вона коригується до тих пір, поки помилка не буде належним чином мінімізована.

Коли йдеться про інтелектуальний аналіз даних, кероване навчання можна розділити на два типи завдань: класифікація та регресія:

  • Алгоритм використовується для класифікації тестових даних і розподілу їх на певні групи. Він розпізнає певні об'єкти в наборі даних і робить обґрунтовані припущення. Машини опорних векторів (SVM) Лінійні класифікатори, k-найближчих сусідів і випадковий ліс є одними з найпоширеніших алгоритмів класифікації.
  • Регресія - це статистичний метод для визначення зв'язку між залежними і незалежними змінними. Він широко використовується для створення прогнозів, наприклад, доходу компанії від продажів. Популярні алгоритми регресії включають поліноміальну, лінійну та логістичну регресію.
.

Алгоритми машинного навчання під наглядом

У керованому машинному навчанні часто використовуються різноманітні алгоритми та обчислювальні підходи. Нижче наведено короткі описи деяких з найбільш часто використовуваних алгоритмів навчання.

  • Лінійна регресія - це статистичний метод для визначення зв'язку між залежною змінною та однією або декількома незалежними змінними, який зазвичай використовується для прогнозування майбутніх результатів. Проста лінійна регресія використовується, коли є тільки одна незалежна змінна і одна залежна змінна. Множинна лінійна регресія використовується, коли кількість незалежних змінних збільшується. Для кожного типу лінійної регресії будується лінія найбільшої відповідності, яка виводиться за допомогою методу найменших квадратів. На графіку ця лінія є прямою.
  • Логістична регресія використовується, коли залежні змінні є категоричними. Хоча обидві регресійні моделі намагаються зрозуміти взаємозв'язки між логістичною регресією, вхідні дані в першу чергу використовуються для вирішення проблем бінарної класифікації.
  • Алгоритм KNN класифікує дані на основі їхньої близькості та кореляції з іншими даними. Ця методика передбачає, що точки даних, які можна порівняти, можуть бути виявлені близько один до одного.
  • Нейронні мережі аналізують навчальні дані, імітуючи взаємозв'язок людського мозку через шари вузлів. Вхідні дані, ваги, зміщення (або поріг) і вихід складають кожен вузол.
.

Завдяки контрольованому навчанню в машинному навчанні нейронні мережі вивчають цю функцію відображення, а потім змінюють її на основі функції втрат за допомогою градієнтного спуску. Ми можемо бути впевнені в точності моделі, яка дає правильну відповідь, коли функція витрат дорівнює або близька до нуля.

  • SVM (Support vector machine - машина опорних векторів) - це поширений метод керованого навчання, який можна використовувати для класифікації даних, а також регресії. Однак найчастіше його застосовують для задач класифікації, де він використовується для створення гіперплощини, де відстань між двома класами точок даних є найбільшою. Межа рішення - це гіперплощина, яка розділяє класи точок даних по обидва боки від площини.
.

Навчання під наглядом vs навчання без нагляду

Про некероване і кероване машинне навчання часто говорять в одному контексті. Некероване навчання, на відміну від керованого, використовує немарковані дані. Воно витягує шаблони з даних і використовує їх для вирішення проблем кластеризації та асоціації. Ієрархічні моделі, моделі k-середніх та моделі суміші Гауса є найбільш поширеними алгоритмами кластеризації.

У напівкерованому навчанні маркується лише частина вхідних даних. Оскільки покладання на знання предметної області для точної категоризації даних при контрольованому навчанні може бути трудомістким і дорогим, неконтрольоване і напівконтрольоване навчання може бути більш привабливим.

Зрештою, контрольоване навчання дозволяє вам збирати дані або генерувати результати на основі попереднього досвіду, а також оптимізувати критерії ефективності на основі досвіду та вирішувати різноманітні реальні обчислювальні проблеми.