Density-Based Clustering

Оновлено: 31.07.2023

Кластеризація на основі щільності відноситься до некерованих підходів ML, які знаходять дискретні кластери в наборі даних, виходячи з того, що кластер/група в наборі даних - це безперервна область з високою точковою щільністю, яка ізольована від іншого кластера розрідженими областями. Зазвичай в точках даних, що розділяють, розріджені зони розглядаються як шум або викиди.

  • Питання кластеризації є ключовим у сфері аналізу даних.
.

Фахівці з аналізу даних використовують кластеризацію для широкого спектру цілей, таких як визначення несправних серверів, класифікація генів на основі моделей експресії, виявлення викидів у біологічних картинах та багато іншого.

Ви можете бути знайомі з деякими з найпоширеніших сімейств алгоритмів кластеризації даних: DBSCAN та k-середніх. Кластери K-Means впорядковують дані за найближчим до них центроидом.

Застосування

  • Міські водопровідні мережі є важливим підземним активом. Скупчення розривів і проривів труб можуть сигналізувати про проблеми, що насуваються. Використовуючи метод кластеризації за щільністю, інженер може виявити ці скупчення і вжити превентивних заходів на ділянках водопровідних мереж з підвищеним ризиком.
  • Уявіть, що у вас є дані про місцезнаходження кожного вдалого і невдалого кидка баскетболіста НБА. Метод кластеризації на основі щільності може виявити різні закономірності вдалих і невдалих кидків для кожного гравця. Ці дані можуть бути використані для визначення стратегії гри.
  • Гіпотетично, у вас є набір точкових даних, де кожна точка представляє будинок у вашому досліджуваному регіоні, і деякі з цих будинків уражені шкідниками, а інші - ні. Найбільші групи заражених будинків можна виявити за допомогою кластеризації на основі щільності в r, що звужує пошук ефективної стратегії лікування та ліквідації.
  • В результаті геолокації твітів після стихійних лих або терористичних актів можуть бути визначені вимоги до порятунку та евакуації в залежності від розміру та розташування кластера.
.

Методи кластеризації

Параметр "Методи кластеризації" інструменту кластеризації на основі щільності надає три можливості для знаходження кластерів у ваших точкових даних:

  • Визначена відстань (кластеризація DBSCAN) використовується для розрізнення щільних кластерів і більш розріджених шумів. Алгоритм DBSCAN є найшвидшим з алгоритмів кластеризації, але його можна використовувати лише за наявності чіткої відстані пошуку, яка застосовується до всіх кластерів-кандидатів і працює ефективно. Це означає, що всі значущі кластери мають порівнянну щільність. Параметри Інтервал пошуку і Поле часу дозволяють знаходити просторово-часові групи точок.
  • Самонастроювання (HDBSCAN) використовує діапазон відстаней, щоб відрізнити кластери з різною щільністю від шуму з більш розрідженим покриттям. Алгоритм кластеризації HDBSCAN - це підхід на основі даних, який потребує найменшої участі людини.
  • Багатомасштабний (OPTICS) використовує відстань між сусідніми об'єктами для побудови діаграми досяжності, яка згодом використовується для виділення кластерів різної щільності з шуму. Метод OPTICS забезпечує найбільшу гнучкість у точному налаштуванні знайдених кластерів, але він вимагає значних обчислювальних витрат, особливо коли відстань пошуку є значною. Ви можете використовувати підхід для пошуку просторово-часових кластерів за допомогою параметрів "Інтервал пошуку" та "Часове поле".
.

Для цього інструменту потрібні вхідні ознаки, маршрут для вихідних ознак і мінімальна кількість ознак, необхідних для оцінки кластера. Залежно від обраного методу кластеризації, вам може знадобитися ввести додаткові параметри, як зазначено нижче.

Алгоритм кластеризації на основі щільності визначає місця, де точки згруповані і де вони розділені порожніми або розрідженими областями. Точки, що не належать до кластера, позначаються як шум. Часові мітки точок можна використовувати як вторинний критерій для виявлення кластерів даних як у просторі, так і в часі.

Цей інструмент використовує некеровані методи кластеризації ML, які автоматично знаходять патерни на основі фізичного положення та відстані до заздалегідь визначеної кількості сусідів. Ці алгоритми вважаються неконтрольованими, оскільки вони не потребують навчання щодо того, що таке кластер.