Feature Engineering

Оновлено: 31.07.2023

Процедури підготовки, які перетворюють необроблені дані на ознаки, що можуть бути використані в алгоритмах машинного навчання, таких як предиктивні моделі, називаються конвеєром інженерії ознак. Предиктивні моделі мають змінну результату і змінні-предиктори, і в процесі інженерії ознак створюються і відбираються найбільш ефективні змінні-предиктори для предиктивної моделі. З 2016 року деякі програми машинного навчання включають автоматизовану інженерію ознак. У машинному навчанні є чотири основні процеси інженерії ознак: створення ознак, перетворення, вилучення ознак і вибір ознак.

Побудова, модифікація, вилучення та відбір ознак, також відомих як змінні, які є найбільш сприятливими для побудови точного алгоритму ML, є частиною інженерії ознак. Ці процедури включають в себе наступне:

Розробка функцій

Визначення всіх релевантних змінних-предикторів для включення в модель є першим етапом в інженерії ознак. Визначення цих характеристик - це радше теоретична робота, яку можна виконати, переглянувши відповідну літературу, поспілкувавшись з експертами в цій галузі та провівши "мозковий штурм".

Коли справа доходить до прогнозного моделювання, однією з найпоширеніших помилок є зосередження на даних, які вже є доступними. Замість цього вони повинні думати про те, які дані потрібні. Ця помилка часто призводить до двох проблем:

  • Зрештою, важливі предикторні змінні залишаються поза моделлю. Наприклад, інформація про тип нерухомості є критично важливою для моделі, яка прогнозує вартість нерухомості. Якщо ця інформація не є легкодоступною, її необхідно отримати перед тим, як намагатися розробити прогнозну модель.
  • Змінні, які повинні бути сформовані з наявних даних, не є такими. Індекс маси тіла, наприклад, є чудовим предиктором багатьох показників здоров'я (ІМТ). Щоб знайти ІМТ людини, розділіть її вагу на квадрат зросту. Щоб розробити надійну модель прогнозування наслідків для здоров'я, ви повинні спочатку зрозуміти, чому вам потрібно включити цю змінну в якості ознаки у вашу модель. Якщо ви включите в модель тільки зріст і вагу, результати майже напевно будуть гіршими, ніж якщо ви включите ІМТ, зріст і вагу в якості предикторів, а також інші відповідні фактори.
.

Трансформація

Це процес певної зміни предикторної змінної з метою покращення продуктивності прогнозної моделі. Коли йдеться про зміну моделей, слід враховувати кілька факторів, зокрема

  • Універсальність машинного навчання та статистичних моделей у роботі з різними формами даних. Деякі стратегії, наприклад, вимагають, щоб вхідні дані були в числовому форматі, тоді як інші можуть працювати з категоріями, текстом або датами.
  • Інтерпретація проста. Простіше зрозуміти модель прогнозування, в якій всі предиктори знаходяться в одній шкалі.
  • Точне прогнозування. Деякі змінні можуть бути перетворені для підвищення точності прогнозування.
  • Похибка в обчисленнях. Багато алгоритмів побудовано таким чином, що "великі" числа призводять до того, що вони дають неправильні результати, хоча "великими" вони можуть бути не завжди.
.

Видобування ознак

Перетворення - це процес створення нової змінної шляхом певної модифікації існуючої змінної. Видобування ознак - це процес створення змінних з інших даних.

  • Наприклад, аналіз головних компонент (PCA) може бути використаний для зведення величезної кількості предикторних змінних до керованої кількості.
  • Предикторні змінні обертаються ортогонально, щоб зменшити вплив їхньої сильної кореляції.
  • Кластерний аналіз використовується для перетворення численних числових змінних у категорійні змінні.
  • Текстова аналітика використовується для вилучення кількісних змінних з текстових даних, таких як оцінки настроїв.
  • Для розпізнавання форм на фотографіях використовуються методи виявлення країв.
.

Вибір функцій

Вибір того, які предикторні змінні слід включити в модель, називається відбором ознак. Для новачка включення всіх доступних ознак у модель може здатися очевидним. Тоді залиште це на розсуд прогнозної моделі, щоб з'ясувати, які з них є прийнятними. Хоча це не так просто.

Якщо ви виберете всі потенційні змінні-предиктори, машина, яку ви використовуєте, може вийти з ладу. Можливо, що алгоритм, який ви використовуєте, не був призначений для врахування всіх доступних факторів. Якщо ви включите всі потенційні атрибути моделі, вона може виявити помилкові кореляції. Коли ви надаєте моделі багато даних, вона може часто давати прогнози, які здаються точними, але є лише збігом обставин, як і люди.

Насправді, вибір ознак передбачає поєднання інтуїції, теорій та оцінки ефективності різних комбінацій ознак у моделі прогнозування.