Missing Values in Time Series

Оновлено: 31.07.2023

У науці про дані брак даних є поширеною проблемою. Відсутність даних може ускладнити аналіз і моделювання даних. Як наслідок, рядки з відсутніми значеннями слід видалити або замінити відповідними значеннями.

Існує три категорії даних, яких не вистачає:

  • Missing Completely At Random (MCAR) - це абревіатура, яка розшифровується як "Відсутність абсолютно випадковим чином". Це найбільш випадковий рівень з усіх можливих. Це означає, що відсутні значення будь-якої ознаки не залежать від значень інших ознак. У разі відсутності даних це найкращий сценарій.
  • MAR означає, що на відсутні значення будь-якої ознаки впливають значення інших характеристик.
  • MNAR означає "Відсутні не випадково". Відсутність даних, які не є випадковими, є більш значущою проблемою, і в цьому випадку може бути доцільно дослідити процес збору даних далі і спробувати з'ясувати, чому їх не вистачає. Наприклад, чому більшість людей в опитуванні не відповіли на певне запитання? Чи було питання неоднозначним?
.

Що робити зі значеннями, яких немає?

Після того, як ми виявили відсутні значення в наших даних, нам потрібно визначити величину пропущених значень, перш ніж робити будь-які подальші дії.

  • Ігнорувати пропущені значення- За винятком випадків, коли пропущені дані є МАР або MNAR, пропущені дані менше 10% для окремого випадку або спостереження зазвичай можуть бути проігноровані. Якщо неповні випадки не беруться до уваги, кількість повних випадків повинна бути адекватною для обраного аналітичного підходу.
.

  • Виключення змінної- Якщо дані є MCAR або MAR і ознака має велику кількість пропущених значень, цю ознаку слід виключити з аналізу. Якщо пропущено більше 5% значень ознаки у вибірці, цю ознаку або вибірку, ймовірно, слід виключити. Щоб уникнути будь-якого штучного збільшення взаємозв'язку з незалежними змінними, видаліть залежну(і) змінну(и), якщо в прикладах або спостереженнях є пропущені значення.
.

  • Видалення- За допомогою цієї процедури видаляються випадки з відсутніми значеннями для однієї або декількох характеристик. Якщо кількість випадків з відсутніми даними мінімальна, краще їх видалити. Хоча це простий метод, він може призвести до значного зменшення розміру вибірки. Крім того, дані не завжди можуть бути відсутніми випадково. Це може призвести до помилкових оцінок параметрів.
.

  • Імпутація - це процес використання статистичних інструментів для заміни відсутніх даних. Імпутація корисна тим, що вона зберігає всі ситуації, замінюючи відсутні дані оціночним значенням, заснованим на інших доступних даних.
.

  • Методи регресії - змінні з відсутніми значеннями вважаються залежними змінними, тоді як змінні з повними випадками вважаються предикторами або незалежними змінними. Спостережувані значення залежної змінної підганяються за допомогою лінійного рівняння з використанням незалежних змінних. Значення відсутніх точок даних потім прогнозуються за допомогою цього рівняння.
.

Недоліком цієї стратегії є те, що в результаті відбору виявлені незалежні змінні матимуть високу кореляцію із залежною змінною. Це призведе до занадто хорошої відповідності відсутнім даним, що знизить невизначеність щодо цього значення. Крім того, це передбачає лінійний зв'язок, який може бути не таким у реальності.

  • KNN- Для прогнозування та заміни відсутніх даних цей метод використовує метод k-найближчих сусідів. K-сусідів вибирають за допомогою метрики відстані, а середнє значення їхніх відстаней використовують як оцінку імплікації. За допомогою цього методу можна оцінювати як якісні, так і кількісні характеристики.
.

Щоб отримати найкращий збіг, протестуйте декілька значень k з різними мірами відстані. Міра відстані може визначатися атрибутами даних. Якщо вхідні змінні можна порівняти за типом, наприклад, евклідова відстань є прийнятною мірою відстані. Якщо вхідні змінні не є однотипними, доцільно використовувати Манхеттенську відстань.

Перевагою використання KNN є простота реалізації. Однак він страждає від прокляття розмірності. Він добре працює для обмеженої кількості змінних, але коли кількість змінних стає величезною, він стає обчислювально неефективним.