Dimensionality Reduction

Оновлено: 31.07.2023

У питаннях класифікації ВК часто існує занадто багато критеріїв, на основі яких здійснюється остаточна класифікація. Ці елементи, по суті, є змінними, які називаються ознаками. Чим більше ознак, тим складніше уявити навчальну вибірку і згодом працювати з нею. Більшість з цих ознак іноді пов'язані між собою і, отже, є надлишковими. У цій ситуації корисними є методи зменшення розмірності. Метод зменшення кількості випадкових величин, що розглядаються, шляхом створення набору первинних змінних називається зменшенням розмірності. Вона поділяється на дві частини: відбір ознак і вилучення ознак.

Важливість зменшення розмірностіДеякі дані можуть мати тенденцію

Базова проблема категоризації листів, коли ми повинні визначити, чи є лист спамом, чи ні, є наочною ілюстрацією зменшення розмірності. Це може включати різноманітні фактори, такі як наявність у листа типової теми, вміст листа, використання шаблону тощо. Деякі з цих характеристик, однак, можуть перетинатися. В іншій ситуації питання класифікації, яке залежить як від вологості, так і від кількості опадів, може бути зведене до однієї базової ознаки, оскільки ці дві ознаки тісно пов'язані між собою. В результаті, кількість ознак в таких ситуаціях може бути зменшена. Тривимірну задачу класифікації важко уявити, але двовимірну задачу можна перевести в базовий двовимірний простір, а одновимірну задачу - в просту лінію.

Зменшення розмірності складається з двох частин:

  • Вибір ознак: На цьому кроці ми намагаємося знайти підмножину вихідного набору змінних, або ознак, щоб змоделювати проблему за допомогою меншої підмножини. Зазвичай це досягається трьома способами: Фільтр, обгортка та вбудовування
  • Виділення ознак зводить дані у високорозмірному просторі до низькорозмірного, тобто з меншою кількістю вимірів.
.

Техніки зменшення розмірності

Нижче наведено деякі з підходів, що використовуються для зменшення розмірності:

  • PCA - Аналіз головних компонент - він працює на припущенні, що коли дані з простору більшої розмірності переводяться в дані з простору меншої розмірності, дисперсія простору меншої розмірності повинна бути найбільшою.
.

Він включає такі процедури: створення коваріаційної матриці даних

Обчислюються власні вектори цієї матриці, і власні вектори з найбільшими власними значеннями використовуються для відновлення великого відсотка дисперсії вихідних даних.

В результаті ми маємо меншу кількість власних векторів, і деякі дані могли бути втрачені в процесі. Однак власні вектори, що залишилися, повинні зберігати найбільш значущі дисперсії.

  • GDA - узагальнений дискримінантний аналіз
  • LDA - лінійний дискримінантний аналіз

Зменшення розмірності може бути лінійним або нелінійним, залежно від використовуваного підходу.

Переваги та недоліки зменшення розмірності

  • Допомагає стискати дані, що призводить до зменшення обсягу пам'яті.
  • Скорочує час обчислень.
  • Допомагає видаляти будь-які непотрібні функції.
.

  • Може статися так, що деякі дані буде втрачено.
  • ПКА має тенденцію виявляти лінійні зв'язки між змінними, що не завжди добре.
  • Коли середнє значення і коваріація недостатні для характеристики наборів даних, ПКА не спрацьовує.
  • Ми можемо не знати, скільки основних компонент потрібно відстежувати, але на практиці дотримуються деяких рекомендацій.
.