Attribute
Оновлено: 31.07.2023
У машинному навчанні атрибути - це об'єкти даних, які використовуються.
Поля, ознаки та змінні в машинному навчанні - це терміни, що використовуються для опису атрибутів.
- Атрибути - це предиктори, які впливають на певний результат у предиктивних моделях. Атрибути - це фрагменти даних, які оцінюються на предмет природних групувань або зв'язків в описових моделях.
Атрибути моделі
Стовпці в наборі даних, які використовуються для розробки, тестування або оцінки моделі, називаються атрибутами даних. Атрибути моделі машинного навчання - це представлення даних, які модель використовує всередині себе.
І дані, і модель можуть мати однакові атрибути. Наприклад, стовпчик з назвою SIZE зі значеннями M, L та X - це атрибут, який використовується алгоритмом для генерації моделі.
Вкладений стовпець (назвемо його ПРОДАЖ), з іншого боку, не відноситься до властивості моделі, оскільки він містить номери продажів для групи товарів. Атрибутом даних може бути ПРОДАЖ, але кожен товар і пов'язане з ним число продажів є атрибутом моделі, так само як і кожен рядок у вкладеному стовпчику.
Невідповідність між атрибутами даних і атрибутами моделі також спричинена трансформаціями. Наприклад, трансформація може виконати обчислення над двома атрибутами даних і зберегти результат у новому атрибуті.
Новий атрибут - це атрибут моделі, який не має відповідника в даних. Обробка викидів і нормалізація є прикладами модифікацій, які призводять до того, що атрибут моделі відрізняється від атрибута в таблиці випадків.
Цільовий атрибут
Це певний тип атрибута, і його історичні значення зберігаються в цільовому стовпчику навчальних даних. Історичні значення, з якими порівнюються прогнози, зберігаються в цільовому стовпчику тестових даних. Акт скорингу генерує цільовий прогноз.
- Ціль не використовується в моделях кластеризації, вилучення ознак, асоціації або виявлення аномалій. Мішенями не можуть бути вкладені стовпці або стовпці з неструктурованими даними (наприклад, BLOB, BFILE або CLOB).
Підпис моделі
.Сигнатура моделі - це набір атрибутів даних, які використовуються для побудови моделі. Для підрахунку балів деякі або всі атрибути в сигнатурі повинні бути присутніми. Модель намагається заповнити всі відсутні стовпці, якщо це можливо. Модель намагається перетворити тип даних, якщо є стовпці з однаковими назвами, але різними типами даних. Якщо є зайві, невикористані стовпці, вони ігноруються.
- Підпис моделі не обов'язково повинен містити всі стовпці даних побудови. Певні стовпці можуть бути проігноровані моделлю через специфічні вимоги алгоритму. Перетворення можуть бути використані, щоб позбутися інших стовпців. Підпис включає лише ті атрибути даних, які було використано для створення моделі.
Підпис не містить полів цільового або ідентифікатора справи.
Назва атрибута моделі складається з двох частин: назви стовпця та назви підстовпця.
Ім'я атрибута даних представлено компонентом імені стовпця. Він з'являється в назвах усіх атрибутів моделі. Вкладені атрибути та текстові атрибути мають компонент назви підстовпця.
Технічні характеристики моделі
Деталі моделі надають інформацію про атрибути моделі та про те, як алгоритм з ними працює. Користувачі повинні використовувати подання моделі для відповідного алгоритму.
Перед алгоритмічною обробкою, яка будує модель, атрибути трансформуються.
Прозорість моделі досягається за допомогою зворотних перетворень. Вони дають користувачам уявлення про дані, з якими алгоритм працює всередині, але у зручному для користувача стилі.
Неструктуровані тексти та числові
Атрибути моделі можуть бути неструктурованим текстом, числовими або категоріальними. Типи даних Oracle застосовуються до стовпців таблиці кейсів (атрибутів даних).
- Теоретично числові якості можуть мати нескінченну кількість значень. Значення впорядковуються неявно, і розбіжності між ними також впорядковуються.
Значення категоріальних атрибутів визначають скінченну кількість дискретних категорій або класів. Значення не мають жодного неявного порядку. Деякі з них є бінарними, тобто мають лише два значення. Інші категоріальні атрибути мають більше двох значень.
Висновок
Його можна уявити як поле даних, яке представляє атрибути або характеристики в машинному навчанні об'єкта даних. Ідентифікатор клієнта, адреса тощо є прикладами вибору атрибутів для клієнта. Набір атрибутів, що використовуються для опису певного об'єкта, називається вектором атрибутів або вектором ознак машинного навчання.
Існують різні типи атрибутів:
- Кількісні (безперервні, числові та дискретні)
- Якісні (номінальні, двійкові та порядкові).