Handling Outliers

Оновлено: 31.07.2023

Ми часто використовуємо дані, щоб формувати висновки і робити висновки, які базуються на фактах. Для аналізу даних у вашому розпорядженні є кілька потужних статистичних інструментів. З іншого боку, деякі з цих технологій надзвичайно чутливі до наявності викидів у даних. Ми можемо зробити неправильні висновки, якщо ігноруватимемо викиди або застосовуватимемо неправильні статистичні методи для аналізу. Як наслідок, ми повинні навчитися працювати з пропущеними даними. Що таке викиди в першу чергу? Викиди - це надзвичайні значення, які значно відхиляються від решти спостережень у нашому наборі даних. Дивлячись на викид, здається, що ці дані не належать до решти набору даних, оскільки вони виділяються.

Що робити?

Іноді краще залишити пропуски у ваших даних. Вони можуть містити важливі дані, які мають відношення до вашого дослідження. Важко зберегти ці точки, особливо коли вони втрачають статистичну значущість! Однак, опускання екстремальних значень лише через їхню екстремальність може спотворити результати, знищивши інформацію про внутрішню мінливість досліджуваної області. Ви змушуєте об'єкт виглядати менш мінливим, ніж він є насправді.

Вирішуючи, чи видаляти викид, оцініть, чи точно він представляє вашу цільову демографічну групу, тематичну область, дослідницьке питання і методи дослідження. Чи було щось несподіване у вимірах, наприклад, перебої в електропостачанні, дивні експериментальні обставини або щось інше, що виходить за рамки звичайного? Чи є щось, що відрізняє спостереження за людиною, об'єктом чи операцією? Чи були проблеми з вимірюванням або введенням даних?

Якщо ви шукаєте виняток, зверніть увагу на наступне:

Якщо є помилка у вимірюванні або введенні даних, спробуйте виправити її якомога швидше. Видаліть це спостереження, якщо ви не можете його виправити, оскільки знаєте, що воно неточне. Ви можете законно усунути відхилення, якщо воно не належить до досліджуваної сукупності.

Ви не повинні виключати його, оскільки він є природним компонентом популяції, яку ви досліджуєте.

Коли ви вирішите вилучити пропущені дані, складіть список точок даних, які були пропущені, і поясніть, чому. Видаляючи пропущені дані, ви повинні бути в змозі точно визначити конкретну причину. Інший варіант - провести аналіз як зі спостереженнями, так і без них, і порівняти результати. Цей метод порівняння результатів особливо корисний, коли ви не знаєте, чи варто видаляти виняток, і коли в групі є багато суперечок щодо відповіді на це питання.

Статистичний аналіз

Що робити, коли ви не можете легально усунути викиди, але вони суперечать припущенням вашого статистичного аналізу? Ви хочете, щоб вони були включені, але не хочете, щоб вони спотворювали результати. Ось кілька варіантів, які варто розглянути.

Пропуски не є проблемою для непараметричної перевірки гіпотез. Викиди не обов'язково порушують припущення або спотворюють результати в цих альтернативах більш звичним параметричним тестам.

Ви можете спробувати конвертувати ваші дані або використовувати надійний регресійний аналіз, який надається в різних статистичних програмах при проведенні регресійного аналізу.

Нарешті, підходи бутстрапінгу не роблять припущень щодо розподілів і використовують дані вибірки як є.

Такі дослідження дозволяють охопити всю варіативність вашого набору даних, не порушуючи жодних припущень і не спотворюючи результати.

Підсумок

Викиди - це екстремальні відхилення в даних, які можуть спричинити розбіжності в результатах і вплинути на результати нашого дослідження. Пропуски при зборі даних можуть бути спричинені різними факторами, в тому числі помилками вибірки та вимірювання. Перш ніж мати справу з відхиленнями, ми повинні спочатку їх розпізнати, що можна зробити за допомогою таких методів, як секторні діаграми, діаграми розсіювання та гістограми. Викиди не повинні бути виключені з нашого дослідження, оскільки за певних обставин вони можуть надати важливу інформацію про наші процедури. Існує багато способів роботи з викидами в даних, і не існує універсального рішення. У більшості ситуацій для визначення того, як ефективно впоратися з викидами в наших даних, використовуються людські навички та досвід.