Feature Selection

Оновлено: 31.07.2023

Процес вибору найбільш значущих ознак для вхідних даних в алгоритмах ML відомий як селекція ознак, і це один з основних компонентів інженерії ознак. Стратегії відбору ознак використовуються для мінімізації кількості вхідних змінних шляхом видалення надлишкових або непотрібних ознак і обмеження набору ознак до тих, які є найбільш корисними для моделі машинного навчання.

Переваги вибору функцій

Нижче наведені основні переваги завчасного вибору функцій, замість того, щоб покладатися на модель машинного навчання, яка визначить, які функції є найбільш важливими:

  • Коротший час навчання: Простіші моделі легше пояснити; надмірно складна і незрозуміла модель не є цінною.
  • Підвищуйте точність оцінок, які можна отримати для конкретної симуляції, зменшуючи дисперсію.
  • Щоб уникнути прокляття високої розмірності, виконайте такі кроки: Феномен прокляття розмірності стверджує, що коли розмірність і кількість ознак зростають, обсяг простору зростає так швидко, що кількість доступних даних зменшується - вибір ознак за допомогою PCA може допомогти зменшити складність.
.

Методи

Алгоритми виділення ознак класифікуються як контрольовані або неконтрольовані, залежно від того, чи можуть вони використовуватися з міченими або неміченими даними. Методи фільтрації, методи обгортки, методи вбудовування та гібридні методи - це чотири типи неконтрольованих методів:

  • Методи фільтрації: Замість того, щоб проводити перехресну перевірку ефективності вибору ознак, методи фільтрації вибирають ознаки на основі статистики. Для виявлення нерелевантних якостей і виконання рекурсивного відбору ознак використовується обрана метрика. Методи фільтрації є або одновимірними, в яких створюється впорядкований рейтинговий список ознак для остаточного вибору підмножини ознак, або багатовимірними, в яких оцінюється релевантність ознак в цілому, виявляючи дубльовані та нерелевантні характеристики.
  • Обгорткові методи підходять до вибору ознак як до проблеми пошуку, при цьому якість набору ознак оцінюється за допомогою підготовки, оцінки та порівняння набору ознак з іншими наборами ознак. Ця стратегія полегшує виявлення потенційних взаємодій між змінними. Підходи з обгорткою зосереджуються на підмножинах ознак, які підвищують якість результатів відбору алгоритму кластеризації. Двома популярними прикладами є вибір ознак Борути та вибір ознак Форварда.
  • Вбудовані підходи до вибору включають алгоритм ML як частину процедури навчання, що дозволяє одночасно проводити класифікацію та вибір ознак. Характеристики, які матимуть найбільший вплив на кожну ітерацію процесу навчання моделі, ретельно виділяються. Переважають такі вбудовані підходи, як вибір ознак випадкового лісу, вибір ознак дерева рішень та вибір ознак LASSO.
.

Що найкраще для вас?

Оптимальний підхід до вибору функцій визначається вхідними та вихідними даними, які необхідно враховувати:

  • Числові вхідні та вихідні дані - використовують коефіцієнт кореляції для вирішення проблеми регресійного вибору ознак за допомогою числових вхідних змінних.
  • Категорійні вихідні та числові вхідні дані - завдання класифікації вибору ознак за допомогою числових вхідних змінних - використовують коефіцієнт кореляції, не забуваючи про категоріальну мету.
  • Категоріальні вхідні дані та числові вихідні дані використовують коефіцієнт кореляції для розв'язання проблеми регресійного прогнозування з використанням категоріальних вхідних змінних.
  • Категоріальні вхідні дані та вихідні дані використовують коефіцієнт кореляції для розв'язання проблеми класифікаційного прогнозування з використанням категоріальних вхідних змінних.
.

Для аналітиків даних вибір ознак є життєво важливим інструментом. Розуміння того, як вибрати основні характеристики в машинному навчанні, має вирішальне значення для ефективності алгоритму. Несуттєві, надлишкові та зашумлені ознаки можуть засмічувати систему навчання, знижуючи продуктивність, точність і вартість обчислень. Оскільки обсяг і складність типових наборів даних швидко зростають, вибір ознак стає все більш важливим.