Clustering in Machine Learning
Оновлено: 31.07.2023
Неконтрольоване навчання - це метод вилучення зв'язків з баз даних, які не мають позначених відповідей, але мають вхідні дані. У деяких випадках це інструмент для визначення значущої структури, пов'язаних ознак, інформативних фундаментальних механізмів і підгруп.
Яка мета кластеризації?
Він допомагає класифікувати дані, які є ідентичними в певному сенсі, дозволяючи цим даним бути позначеними (опосередковано). Подібні дані будуть згруповані в один клас, що спрощує обчислення для цього конкретного типу даних.
Простіше кажучи, кластеризація в машинному навчанні має важливе значення, оскільки вона визначає природне групування необроблених даних. Для того, щоб кластеризація працювала, немає жодних обов'язкових умов. Клієнт сам визначає, за якими критеріями йому слід шукати відповідність своїм потребам. Наприклад, нам може бути важливо знайти відносно однорідних учасників для group0073, знайти корисні та доречні угруповання або знайти незвичайні елементи даних. Будь-які припущення про схожість точок мають бути зроблені цим алгоритмом.
Методи кластеризації ML:
Методи для розбиття множин: Ці методи розбивають об'єкти на частини, кожна з яких утворює кластер. Цей підхід використовується для оптимізації функції подібності з об'єктивною нормою.
На основі Grid: У цьому підході дані розбиваються на рамки, що складаються з обмеженої кількості комірок. Хвильовий кластер, STING, CLIQUE та інші операції кластеризації виконуються швидко і незалежно.
Підходи на основі щільності: Ці методи розглядають кластери як щільні області, які мають певну схожість, але відрізняються від менш щільних областей простору. Ці підходи є точними і здатні об'єднувати два кластери.
Методи, засновані на ієрархії: Кластери утворюють деревоподібну структуру. Раніше створений кластер використовується для створення нових кластерів.
Методи для розбиття множин: Ці методи розбивають об'єкти на частини, кожна з яких утворює кластер.
Алгоритми кластеризації
Існує кілька алгоритмів кластеризації в ML, серед яких найчастіше використовується k-середнє, оскільки він простий у реалізації.
На початку вам потрібно визначитися з кількістю груп, на які слід згрупувати дані. Потім, випадковим чином, середня точка розподіляється між цими групами.
Кожному даному присвоюється класифікація на основі простору між ним і серединою групи. Після цього дані привласнюються центру спільноти.
Центр кожної групи перераховується, і обчислюється середнє значення по групі.
Зазначені методи повторюються до тих пір, поки між ітераціями не буде суттєвих відмінностей.
Перші кілька разів групові кластери можна динамічно оновлювати, а потім вибрати оптимізацію, яка дає найкращі результати.
K-середні - це швидка процедура, яка вимагає лише кількох обчислень для отримання результатів. Вона має лінійну складність O-рівня (n).
K-середні - найпопулярніший алгоритм у кластеризації глибокого навчання
Кластеризація за середнім зсувом і просторова кластеризація додатків із шумом на основі щільності - ще два алгоритми кластеризації ML.
У містобудуванні використовується для формування будинків у кластери та аналізу їхніх принципів. У біології його можна використовувати для розрізнення різних видів рослин і тварин. Так само він допомагає у розробці типологій флори і фауни та класифікує гени зі схожими функціями, щоб отримати уявлення про структуру популяцій. Недоліком K-середніх є те, що користувач повинен спеціально вибрати точну кількість класів, за якими потрібно класифікувати дані.
Кластеризація використовується в різних сферах.
Крім того, кластеризація знаходить свою користь і в інших сферах. Перш за все, вона добре працює як функція інтелектуального аналізу даних для отримання уявлення про розподіл даних і спостереження за різними характеристиками кластерів. У бібліотеках простим застосуванням може бути групування книг за темами, жанрами та іншими атрибутами. Його можна використовувати в маркетингових цілях, щоб охарактеризувати і виявити споживчі сегменти. У соціальних мережах хештеги використовують методи кластеризації, щоб згрупувати всі дописи з однаковим хештегом в одному джерелі. Використовуючи методи кластеризації, пошукові системи надають результати пошуку на основі найближчого об'єкта, пов'язаного з пошуковим запитом. Різні алгоритми також використовуються в бездротових мережах для зменшення споживання енергії та збільшення швидкості передачі даних.
Нарешті, ракові клітини можна ідентифікувати, порівнюючи їх зі здоровими клітинами, що є корисним застосуванням.
Хоча існує набагато більше можливостей для навчання без участі людини та машинного навчання загалом, ця стаття зосереджена на алгоритмах кластеризації та їхніх різноманітних методах і реалізаціях.