Noise in Machine Learning

Оновлено: 31.07.2023

Що таке шум у машинному навчанні

Реальні дані, які використовуються для роботи алгоритмів інтелектуального аналізу даних, мають низку факторів, що можуть впливати на них. Існування шуму є основним фактором в обох цих проблемах. Це неминуча проблема, але та, яку організація, орієнтована на дані, повинна вирішити.

Люди схильні помилятися під час збору даних, а інструменти для збору даних можуть бути ненадійними, що призводить до помилок у наборі даних. Ці помилки називаються шумом. Шум даних у машинному навчанні може спричинити проблеми, оскільки алгоритм інтерпретує шум як закономірність і може почати узагальнення на його основі.

  • Зашумлений набір даних призведе до хаосу в усьому аналітичному конвеєрі. Шум можна виміряти як відношення сигнал/шум аналітиками та науковцями з даних

В результаті, використовуючи алгоритм, будь-який data scientist повинен мати справу з шумом в науці про дані.

Виявлення та видалення шуму за допомогою машинного навчання

Існує багато широко використовуваних методів для вилучення шуму з будь-якого сигналу або набору даних.

Аналіз головних компонент

PCA - це арифметичний метод, який використовує властивість ортогональності для перетворення набору потенційно корельованих змінних у непов'язані змінні. Термін "головні компоненти" відноситься до цих нових змінних.

  • PCA намагається усунути пошкоджені дані з сигналу або зображення за допомогою консервативного шуму, зберігаючи при цьому критичні характеристики

PCA - це геометричний і статистичний метод, який зменшує розмірність вхідного сигналу або даних, проектуючи їх уздовж різних осей. Щоб краще зрозуміти, уявіть, що ви проектуєте точку у вимірі XY вздовж осі X. Площина шуму - вісь Y - тепер може бути видалена. Це явище називається "зменшенням розмірності". В результаті, усуваючи осі, що містять зашумлені дані, аналіз головних компонент може мінімізувати шум у вхідних даних.

Глибоке шумозаглушення

Автокодери корисні для видалення шуму; доступний стохастичний варіант автокодера. Оскільки їх можна навчити розпізнавати наявність шуму в сигналі або даних, їх можна використовувати як зашумлювачі, подаючи на них зашумлені дані і отримуючи на виході чисті дані. Автокодери складаються з двох частин: кодера, який перетворює вхідні дані в закодований стан, і декодера, який декодує закодований стан.

  • Автокодер із зашумленням робить дві речі: кодує вхідні дані, зберігаючи якомога більше деталей про вихідні дані. Він також обертає ефект стохастичного додавання шуму до вхідних даних

Основна мета автокодерів із зашумленням полягає в тому, щоб підштовхнути секретний шар до вивчення більш стійких ознак. Потім автокодер навчається відновлювати вхідні дані з погіршеної версії, зменшуючи при цьому втрати. Використання автокодерів для усунення шуму з сигналу продемонстровано в одному прикладі.

Контрастний набір даних

Припустимо, вам потрібно очистити зашумлений набір даних, який містить великі фонові патерни як шум, що не цікавить дослідника даних. Тоді, використовуючи підхід адаптивного шумозаглушення, цей метод пропонує рішення, усуваючи зашумлений сигнал. Цей метод використовує два сигнали: один - цільовий сигнал, а інший - безшумний фоновий сигнал.

Перетворення Фур'є

Дослідження вже показали, що наш сигнал або дані мають структуру, і ми можемо безпосередньо видалити з них шум. Перетворення Фур'є сигналу використовується для переведення сигналу в частотну область в цьому процесі.

Ми не побачимо цього впливу в необробленому сигналі або даних, але якщо розбити сигнал на частотну область, то можна помітити, що більша частина інформації сигналу в часовій області представлена лише кількома частотами. Оскільки шум непередбачуваний, він буде розсіяний по всіх частотах.

Згідно з теорією, ми можемо відфільтрувати більшість зашумлених даних, залишивши частоти, які містять найважливішу інформацію про сигнал, і відкинувши решту. Таким чином можна видалити зашумлені сигнали з набору даних.

Висновок

Відокремлення сигналу від шуму є основною проблемою для дослідників даних сьогодні, оскільки це може призвести до проблем з продуктивністю, таких як перенавчання, що спричиняє ненормальну поведінку алгоритму машинного навчання. Алгоритм може використовувати шум як відправну точку для узагальнення. Тому найбезпечніший спосіб - усунути або зменшити кількість зашумлених даних у вашому сигналі або наборі даних.