Tabular Data

Оновлено: 31.07.2023

Табулювання даних - це тип інформації, що міститься в електронних таблицях і файлах CSV. Зазвичай вони організовані у вигляді рядків і стовпців. Багато наборів даних, з яких бізнес прагне отримати вигоду, є саме такими, на відміну від зображень чи тексту. Приклади включають показники датчиків, потоки кліків, купівельні звички та бази даних управління клієнтами.

Згідно з традиційними уявленнями, проблеми з табличними даними в python найкраще вирішуються за допомогою підходів неглибокого навчання, а саме методів ансамблів дерев, таких як випадкові ліси та градієнтний бустінг. Однак останніми роками спостерігається сплеск використання підходів глибокого навчання.

Чому варто використовувати глибинне навчання для аналізу табличних даних?

Якщо досвід показує, що ансамблі дерев рішень забезпечують найвищу продуктивність, чому б просто не використати їх?

Дослідники визначили можливі переваги ДЛ:

  • Це може виявитися більш ефективним, особливо для дійсно великих наборів даних.
  • Поглиблене навчання дозволяє навчати наскрізні системи з використанням градієнтного спуску, що дозволяє додавати зображення і текст, не змінюючи весь конвеєр.
  • Більшість методів, заснованих на деревах, потребують глобального доступу до даних для визначення точок розщеплення, що робить більш зручним використання моделей ДН в онлайн-режимі.
.

Однак є один недолік:

  • Моделі глибокого навчання часто є складними і залежать від значного налаштування гіперпараметрів, але випадкові ліси та градієнтний бустінг зазвичай працюють досить добре без будь-яких маніпуляцій з гіперпараметрами.
.

Технології на основі нейронних мереж для табличних даних

  • Механізми уваги. Нейронні механізми уваги стали досить популярними, особливо для мовних моделей. Існує кілька типів механізмів уваги, серед яких самоуважність використовується BERT, і наразі є найвідомішим програмним забезпеченням для НЛП. Простіше кажучи, механізми уваги дозволяють нейронній мережі зрозуміти, на яких частинах вхідних даних вона повинна сконцентруватися в певний момент часу. Вони дозволяють мережі зосередитися лише на тих вхідних даних, які потребують її негайної уваги.
  • Вбудовування об'єктів. Вбудовування сутностей - це техніка, за допомогою якої числовий вектор низької розмірності навчається представляти кожне значення змінної категорії. Вбудовування вивчають під час навчання, наприклад, як "побічний ефект" розв'язання проблеми класифікації. Багато років тому такі фірми, як Instacart і Pinterest, успішно використовували цей метод.
  • Гібридні методи. Декілька гібридних підходів поєднують можливості DL і класичного ML. Використання DL-моделі для вивчення вбудовувань об'єктів, а потім включення їх у модель з градієнтним підсиленням є простим підходом.
.

Сильні сторони глибокого навчання

У більшості випадків глибоке навчання досягає успіху завдяки тому, що воно вивчає складні деревоподібні представлення даних. І мова, і візуальний світ мають структури, які можна аналізувати на більш атомарному та вищому рівні. До того, як глибоке навчання стало ефективним наприкінці 2000-х років, аналіз мови та зображень покладався на створені вручну характеристики, які відображали певні властивості даних. Однак сьогодні такі моделі, як BERT (для мови) і DenseNets (для зображень), можуть вивчати високоінформативні представлення даних, усуваючи потребу в інженерії ознак.

Крім того, всі типові бібліотеки нейронних мереж включають такі методи, як згортки, які добре працюють з локальною структурою зображень і мовних даних.

Часто табличні бази даних не мають локальної або ієрархічної структури. Багато хто вважає, що з цієї причини для табличних даних не потрібно застосовувати DL. Як показує історичний досвід, найбільш надійними алгоритмами для табличних даних є варіанти ансамблів дерев рішень.