PCA – Principal Component Analysis

Оновлено: 31.07.2023

Що таке PCA?

PCA - це підхід до зменшення розмірності для зменшення розмірності великих наборів даних шляхом перетворення великого набору змінних на менший, який зберігає більшу частину інформації з великого набору.

Звісно, зменшення кількості змінних у наборі даних знижує точність, але відповідь на питання зменшення розмірності полягає в тому, щоб обміняти певну точність на простоту. Тому що менші набори даних простіше вивчати і відображати, і тому що алгоритми машинного навчання можуть аналізувати дані легше і швидше, без необхідності мати справу з зайвими факторами.

  • Мета PCA - зменшити кількість змінних у зборі даних, зберігаючи при цьому якомога більше інформації.
.

Стандартизувати

Цей етап використовується для нормалізації діапазону неперервних початкових змінних таким чином, щоб всі вони вносили однаковий вклад в аналіз.

Важливість стандартизації перед проведенням ПКА зумовлена чутливістю останнього до варіацій вихідних змінних. Тобто, якщо діапазони вихідних змінних суттєво відрізняються, то змінні з ширшими діапазонами будуть домінувати над змінними з меншими діапазонами, що призведе до зміщення результатів. Як наслідок, приведення даних до еквівалентних шкал може допомогти уникнути цієї проблеми.

Віднімання середнього значення та ділення на стандартне відхилення для кожного значення кожної змінної можна зробити математично.

Коваріація

Мета цього етапу - з'ясувати, як змінні у вхідному наборі даних відрізняються від середнього значення одна відносно одної, або виявити, чи існує між ними зв'язок. Оскільки змінні можуть бути дуже тісно пов'язані між собою, навіть якщо вони включають дані, що дублюються. Ми будуємо коваріаційну матрицю, щоб знайти ці зв'язки.

Що ми можемо дізнатися про кореляції між змінними з коваріацій, які ми маємо у вигляді елементів матриці?

  • Важливим є знак коваріації:
  • Якщо дві змінні додатні, вони зростають або спадають разом; якщо вони від'ємні, одна зростає, а інша спадає.
.

Обчислити власні вектори та власні значення

Власні вектори та власні значення завжди знаходяться попарно, з власним значенням для кожного власного вектора. А їх кількість дорівнює кількості вимірів даних. У тривимірному наборі даних є три змінні, отже, є три власні вектори з трьома відповідними власними значеннями.

Оскільки власні вектори матриці коваріації - це напрямки осі з найбільшою дисперсією, які ми називаємо головними компонентами, саме власні вектори і власні значення лежать в основі всієї магії. Коефіцієнти, пов'язані з власними векторами, представляють кількість варіації, що міститься в кожній головній компоненті, тоді як власні значення - це просто коефіцієнти, приписані до власних векторів.

Ви можете отримати головні компоненти в порядку важливості, проранжувавши власні вектори за їхніми власними значеннями, від найбільшого до найменшого.

Вектор характеристик

На цьому етапі ми вирішуємо, чи зберегти всі ці компоненти, чи відкинути ті, що не є важливими, а потім об'єднати ті, що залишилися, у матрицю векторів, відому як вектор ознак (Feature vector).

Отже, вектор ознак - це просто матриця з власними векторами компонент, які ми хочемо зберегти як стовпці.

Перезалийте дані

Окрім стандартизації, на попередніх етапах дані не змінюються; ви просто вибираєте первинні компоненти і будуєте вектор ознак, але вхідні дані завжди подаються в термінах вихідних осей.

Метою цього етапу, який є останнім, є переорієнтація даних з початкових осей на ті, на які вказують головні компоненти за допомогою вектора ознак, отриманого з використанням власних векторів коваріаційної матриці.

Завершити

Хоча у своїй базовій формі PCA є часто використовуваним і адаптивним методом аналізу описових даних, він також має різні модифікації, які роблять його застосовним до широкого спектру обставин і типів даних у кількох галузях. Адаптації PCA були запропоновані для бінарних даних, порядкових даних, композиційних даних, дискретних даних, символьних даних або даних з унікальною структурою, таких як часові ряди або набори даних зі спільними коваріаційними матрицями, серед іншого. Інші статистичні методи, такі як лінійна регресія з головними компонентами і навіть одночасна кластеризація як осіб, так і змінних, значною мірою спираються на ПСА або пов'язані з ним методології.

Хоча такі методи, як лінійний дискримінантний аналіз, аналіз відповідності та канонічний кореляційний аналіз мають лише слабке відношення до PCA, вони мають спільну методологію, оскільки базуються на факторних розкладах певних матриць. Література про PCA є обширною і охоплює широкий спектр тем. Через обмеженість обсягу статті, тут ми розглядаємо лише деякі з них. Нові модифікації, методологічні знахідки та застосування продовжують з'являтися.