EDA – Exploratory data analysis OR Exploration
Оновлено: 31.07.2023
Розвідувальний аналіз даних (РАД) - це спосіб оцінювання наборів даних з метою виокремлення їхніх суттєвих властивостей, як правило, з використанням візуальних підходів. Перед початком роботи над моделюванням, ЕДА використовується для вивчення того, що дані можуть нам розповісти. Непросто виокремити основні властивості даних зі стовпчика чисел або цілої електронної таблиці. Отримання інсайтів з необроблених даних може бути стомлюючим, нецікавим і/або непосильним завданням. У цьому випадку на допомогу приходять дослідницькі підходи до аналізу даних.
Існує два способи класифікації розвідувального аналізу даних. Перша відмінність полягає в тому, що кожен підхід є або неграфічним, або графічним. По-друге, кожен підхід може бути одновимірним або багатовимірним, причому найпоширенішим є двовимірний.
Тож що потрібно зробити, щоб провести попередній аналіз даних?
Відсутні дані
Перш ніж почати вивчати дані, постарайтеся зрозуміти їх на високому рівні. Поговоріть з керівництвом та представниками продукту, щоб отримати якомога більше інформації, яка допоможе вам вирішити, на чому сконцентрувати свої зусилля. Ви хочете спробувати свої сили в прогнозуванні? Чи робота лише заради дослідження? Залежно від бажаного результату, ви можете виділити зовсім різні пункти у вашій EDA.
Тепер, коли ви визначилися з тим, як будете використовувати дані, можна приступити до аналізу самих даних. Як правило, найкраще починати з пошуку відсутніх значень у ваших даних. Я рекомендую вивчати аспекти по одному і ранжувати їх відповідно до вашого унікального аналізу для цього і майбутніх аналізів.
Тепер для кожної характеристики я рекомендую вам спробувати з'ясувати, чому дані відсутні і що це може означати. На жаль, це не завжди так просто, і рішення може бути недоступним. В результаті, ціла галузь статистики, відома як імплікація, присвячена цій проблемі і пропонує численні рішення. Стратегія, яку ви обираєте, залежить від типу даних, які ви маєте. Ви можете використовувати середнє або медіану для заповнення відсутніх значень у даних часових рядів без сезонності або тренду. Якщо в часовому ряді є тренд, але немає сезонності, ви можете використовувати лінійну інтерполяцію. Якщо ж є і те, і інше, то перед застосуванням лінійної інтерполяції слід скоригувати сезонність.
Форма даних
Ви дивитеся, як змінюється ознака, якщо набір даних є часовим рядом. Характеристика може мати сезонність або позитивний/негативний лінійний тренд у часі. Всі ці фактори слід враховувати у вашому аналізі з оцінки впливу на довкілля.
Далі буде розраховано середнє значення та дисперсію кожної характеристики. Чи змінюється ознака дуже мало? Чи перебуває вона в постійному русі? Зробіть обґрунтоване припущення щодо поведінки, яку ви спостерігаєте. Ознака з дуже низькою або надзвичайно високою дисперсією може потребувати подальшого дослідження.
Ваші партнери - функції густини ймовірності та функції маси ймовірності. PMF використовуються для дискретних об'єктів, а PDF - для неперервних об'єктів, щоб зрозуміти їхню форму.
Кореляції
Зв'язок між двома змінними вимірюється за допомогою кореляції. Розглянемо зв'язок між двома дискретними ознаками: Доставлені замовлення та Виконані замовлення. Побудова діаграми розсіювання з відкладенням Доставлених замовлень на осі у та Виконаних замовлень на осі х є найпростішим підходом для візуалізації кореляції. Як і передбачалося, ці дві характеристики мають сприятливий зв'язок.
Якщо ваш набір даних містить велику кількість характеристик, ви не зможете побудувати такий графік для всіх них, оскільки це займе занадто багато часу. Тому, враховуючи ваш набір даних, я пропоную побудувати кореляційну матрицю Пірсона. Вона обчислює лінійну кореляцію між ознаками у вашому наборі даних і надає кожній парі значення від -1 до 1. Позитивне значення означає сприятливий зв'язок, тоді як негативне число означає несприятливий зв'язок.
Дуже важливо відстежувати всі основні взаємозв'язки між характеристиками. Цілком можливо, що ви побачите багато зв'язків між характеристиками у вашому наборі даних, але також можливо, що ви побачите дуже мало. Кожен набір даних унікальний! Сформулюйте теорії про те, чому певні характеристики пов'язані між собою.
Завершення
- У ваших даних можуть бути відсутні значення. Переконайтеся, що ви знаєте, чому вони відсутні і що ви збираєтеся з цим робити.
- Дайте короткий опис ваших характеристик і згрупуйте їх за категоріями. Це матиме значний вплив на візуалізацію та статистичні підходи, які ви будете використовувати.
- Візуалізуйте розподіл ваших даних, щоб краще їх зрозуміти. Ви ніколи не знаєте, на що натрапите! Дізнайтеся, як ваші дані змінюються з часом і в різних вибірках.
- Існують зв'язки між вашими атрибутами. Занотуйте їх подумки. Ці зв'язки можуть виявитися корисними в майбутньому.