Preprocessing

Оновлено: 31.07.2023

Підготовка даних - це метод інтелектуального аналізу даних, який передбачає перетворення необроблених даних у придатний для використання формат. Дані в реальному світі часто є неадекватними, непослідовними та/або відсутніми в певних поведінкових моделях чи патернах, а також містять численні неточності. Попереднє опрацювання даних є випробуваним і надійним засобом подолання таких проблем.

Іншими словами, попередня обробка даних - це етап інтелектуального аналізу даних, який надає інструменти для розуміння та виявлення знань з даних одночасно.

Технології попередньої обробки даних

  • Інтеграція даних - Як і у випадку зі сховищем даних, інтеграція даних пов'язана із завданнями аналізу даних, які об'єднують дані з численних джерел у цілісне сховище даних. Прикладами таких джерел є кілька баз даних, куби даних і плоскі файли. Інтеграція схем є важливим моментом в інтеграції даних. Це складна ситуація.
.

Як узгоджуються реальні об'єкти з різних джерел даних? Це називається труднощами з ідентифікацією об'єктів. Як аналітик даних може визначити, чи ідентифікатор клієнта в одній базі даних і номер замовлення в іншій відносяться до одного й того ж об'єкта? Метадані є ключовим фактором тут. Метадані поширені в базах даних і сховищах даних. Простіше кажучи, метадані - це інформація про інформацію.

Метадані використовуються, щоб допомогти уникнути проблем з інтеграцією схем. Надлишковість є ще одним важливим фактором. Якщо атрибут успадковано з іншої таблиці, він може бути надлишковим. Надлишковість у кінцевому наборі даних також може бути спричинена неузгодженістю в назвах атрибутів або вимірів.

  • Перетворення даних - Дані переводяться в формати майнінгу, які відповідають ситуації. Трансформація даних включає в себе наступні кроки:

Дані атрибутів масштабуються так, щоб вони знаходилися в обмеженому заздалегідь визначеному діапазоні, наприклад, від -1.0 до 1.0 або від 0 до 1.0, в режимі нормалізації.

Згладжування - це метод видалення шуму з даних. Біннінг, групування та регресія є прикладами таких процедур.

Агрегування - це процес застосування процедур підсумовування або агрегування даних. Наприклад, щоденні дані про продажі можуть бути об'єднані для обчислення місячних і річних підсумків. Цей етап зазвичай використовується під час побудови куба даних для аналізу даних на різних рівнях деталізації.

Використовуючи ієрархії понять, низькорівневі або примітивні/сирі дані замінюються ідеями вищого рівня при узагальненні даних. Наприклад, категоріальні якості узагальнюються до понять вищого рівня, таких як вулиця, місто, нація.

  • Очищення даних - Методи очищення даних спрямовані на заповнення відсутніх значень, згладжування шуму при виявленні викидів та усунення розбіжностей у даних.
.

Дані можуть мати помилкові значення атрибутів, що робить їх зашумленими. Інструменти для збору даних, які використовувалися, можуть бути несправними внаслідок наступних причин. Можливо, під час введення даних були допущені людські або комп'ютерні помилки. Також можуть виникати помилки під час передачі даних.

"Брудні" дані можуть завадити процесу майнінгу. Хоча більшість процесів майнінгу включають певні методи, вони часто мають справу з неповними або зашумленими даними, які не завжди є надійними. Як наслідок, пропуск даних через різні алгоритми очищення даних є важливим етапом попередньої обробки даних.

  • Зменшення обсягу даних - Складний аналіз і видобуток даних на великих масивах даних може зайняти багато часу, що робить таке дослідження недоступним або неможливим. Методи скорочення даних корисні для аналізу зменшеної репрезентації набору даних без загрози для цілісності вихідних даних, але з отриманням якісних знань. Нижче наведено кілька стратегій скорочення даних:

Процеси агрегації застосовуються до даних при формуванні куба даних в Data Cube Aggregation.

Функція зменшення розмірів виявляє та видаляє непотрібні, слабко пов'язані або надлишкові елементи чи розміри.

Методи кодування застосовуються при стисненні даних для мінімізації кількості наборів даних. Вейвлет-перетворення та аналіз головних компонент - два підходи до стиснення даних.