Unsupervised Learning

Оновлено: 31.07.2023

Вступ

Машинне навчання використовує неконтрольоване навчання як один з методів обробки даних. Некероване навчання має справу з немаркованими вхідними даними, які система повинна розшифрувати самостійно. Контрольоване навчання - це коли набори даних маркуються, щоб комп'ютер міг порівняти їхню точність з ключем відповідей. Якби машинне навчання було дитиною, яка вчиться їздити на велосипеді, то контрольоване навчання - це коли батьки біжать поруч з нею, тримаючи велосипед вертикально. Передача велосипеда, погладжування дитини по голові та побажання удачі - все це приклади неконтрольованого навчання.

Ідея полягає в тому, щоб просто дозволити машині навчатися самостійно, без втручання аналітиків даних. У процесі навчання вона повинна навчитися змінювати результати та групи, коли стають доступними більш відповідні результати. Це дозволяє машині розуміти інформацію і обробляти її так, як вона вважає за потрібне.

Для вивчення невідомих даних використовується неконтрольоване навчання. Воно може виявляти закономірності, які людина може не помітити, а також вивчати величезні масиви даних, з якими людина не в змозі впоратися.

Який механізм навчання без вчителя?

Ми повинні спочатку зрозуміти контрольоване навчання, перш ніж ми зможемо зрозуміти неконтрольоване навчання. У контексті контрольованого навчання комп'ютеру, який навчається розпізнавати фрукти, показують зразки зображень мічених тварин. Це називається вхідними даними. Система повинна бути здатна правильно розпізнати, яка тварина є якою, коли пройде достатньо часу.

З іншого боку, неконтрольоване навчання відбувається тоді, коли дані ніяк не класифікуються і не маркуються. Оскільки машина не відчуває тварин, вона не зможе маркувати речі.

Однак вона може сортувати їх у групи за кольорами, розмірами, формами та відмінностями. Система класифікує об'єкти на основі їхньої схожості, виявляючи приховані структури та закономірності в немаркованих даних. Немає такого поняття, як правильний чи неправильний підхід, і немає такого поняття, як вчитель. Немає висновків, лише ретельне вивчення доказів.

Для об'єднання даних у широкі категорії, кластеризації та асоціації неконтрольоване навчання використовує різноманітні методи.

  • Кластеризація - Кластеризація - це процес групування елементів у підмножини, відомі як кластери. Це один з найефективніших методів для отримання загального уявлення про структуру ваших даних. Ці кластери матимуть певні спільні якості. Ця стратегія спрямована на створення груп зі схожими характеристиками, які згодом будуть віднесені до відповідних кластерів.
.

  • Асоціація- Алгоритм в машинному навчанні надає правила, які виявляють кореляції між точками даних. Він ідентифікує речі, які, ймовірно, з'являються разом, визначаючи зв'язки між змінними. Цей алгоритм фантастично виявляє маркетингові можливості.
.

Коли використовувати навчання без нагляду?

Оскільки комп'ютер не знає, що існує розумна відповідь, надання можливості аналітикам даних робити висновки про дані на основі отриманої інформації допомагає їм дізнатися більше про дані. Алгоритми можуть виявити цікаві або приховані структури в даних, про які раніше не знали дослідники даних. Вектори ознак - це назви, які дають цим прихованим структурам.

Оскільки дані зазвичай не мають міток, неконтрольоване навчання економить час і зусилля фахівця з даних на маркування всього, що може бути трудомістким і складним завданням. Методи неконтрольованого навчання дозволяють виконувати більш складні завдання. Знову ж таки, відсутність маркування унеможливлює відображення складних зв'язків і кластерів даних. Без маркування даних не існує заздалегідь визначених понять чи упереджень.

  • Коли немає попередніх даних про бажані результати, найкращим варіантом є неконтрольоване навчання.
.

Неконтрольоване навчання може допомогти класифікувати невідомі набори даних, визначаючи риси, які можуть бути корисними. Наприклад, уявімо, що компанія має з'ясувати, хто є цільовим ринком для нового продукту.

Зменшення розмірності - це метод, який використовується в неконтрольованому навчанні. Коли машина вважає великий обсяг даних надлишковим, вона або усуває розмірність, або змішує дані з декількох джерел. Стиснення даних скорочує час, необхідний для обробки даних, і зменшує кількість обчислювальної потужності, необхідної для їх обробки.