Data Decomposition
Оновлено: 31.07.2023
Декомпозиція - це статистична робота, яка передбачає розбиття даних часового ряду на багато компонентів або виявлення сезонності та тренду з ряду даних. Нижче наведено визначення компонентів:
- Середнє значення ряду називається рівнем.
- Зростання або падіння значення ряду називається трендом.
- Сезонність - це повторюваний короткостроковий цикл ряду.
- Випадкова дисперсія ряду називається шумом.
Ці елементи об'єднуються, щоб сформувати дані часових рядів. Рівень та шум присутні у всіх рядах. Компоненти сезонності та тренду є необов'язковими.
Ці компоненти або адитивно, або мультиплікативно змішуються в даних часових рядів.
Адитивна модель - дисперсія даних не змінюється при різних значеннях часового ряду в адитивній моделі. Систематичний компонент є арифметичною сумою індивідуальних ефектів предикторів.
Сезонність має таку ж частоту та амплітуду, як і в адитивній моделі, а лінія тренду є прямою.
Мультиплікативна модель - це модель, в якій сезонний тренд або варіація зростає зі збільшенням обсягу даних. Компонент помилки перед додаванням множиться на тренд і сезонні компоненти.
Тренд - це крива лінія, а сезонність має зростаючу або спадаючу частоту та амплітуду з плином часу. Мультиплікативні моделі є нелінійними, наприклад, квадратичними або експоненціальними, а тренд є кривою лінією.
Декомпозиція в класичному стилі
Для аналізу часових рядів використовується декомпозиція. І, залежно від завдання, результат може бути використаний для інформування моделі прогнозування. Це дає швидкий огляд проблеми прогнозування з точки зору складності моделі і того, як ефективно відобразити ці елементи в моделі.
Компоненти даних часового ряду можуть бути мультиплікативними або адитивними. Може спостерігатися висхідний тренд, за яким слідує спадний тренд, або неповторюваний цикл із сезонними компонентами, які повторюються.
Декомпозиція допомагає в аналізі фактів і дослідженні різних варіантів вирішення проблеми.
Python має пакет statsmodels, який можна використовувати для розбиття послідовності даних на складові. сезонне розкладання - це функція utilized (). Щоб ця функція працювала, модель має бути "Адитивною" або "Мультиплікативною".
Тренд і сезонні ряди зберігаються в масиві як вихідні дані функції. Коли тренд і сезонні компоненти вилучаються з даних, залишаються лише залишки. Крім того, зберігаються вихідні дані, які ми бачили.
Завершити
Варто зазначити, що прості методи декомпозиції мають певні обмеження. Два з них висвітлені в цій статті.
Почнемо з того, що використання ковзної середньої для оцінки компонента тренд+цикл має певні недоліки. Ця стратегія, зокрема, генерує пропущені значення для перших кількох та останніх значень ряду. Ми не матимемо оцінок для перших та останніх шести місяців щомісячних даних. На графіку тренду вище це проілюстровано.
Передбачається, що оцінка сезонного тренду повторюється щороку. Це може бути проблемою для довших рядів з мінливими тенденціями. Це припущення видно на обох діаграмах декомпозиції. Зверніть увагу на те, як сезонні моделі, як адитивні, так і мультиплікативні, повторюються в часі.