Machine Learning Algorithm

Оновлено: 31.07.2023

Машинне навчання - це підгалузь штучного інтелекту (ШІ), яка дозволяє комп'ютерам розвиватися та адаптуватися самостійно, без програмування.

Процес навчання починається зі спостережень або даних, таких як приклади, безпосередній досвід або інструкції, щоб ми могли шукати закономірності в даних і приймати кращі рішення в майбутньому на основі наданих прикладів. Основна мета полягає в тому, щоб комп'ютери навчалися самостійно, без участі людини, і відповідно змінювали свою поведінку.

Однак при використанні традиційних алгоритмів машинного навчання текст розглядається як набір ключових слів; натомість техніка семантичного аналізу імітує людську здатність розуміти зміст документа.

Алгоритм проти модельної структури

Щоб використовувати категоріальні дані для машинної класифікації, текстові мітки повинні бути закодовані в інший формат. Існує два широко використовуваних кодування.

Перший - це кодування міток, яке замінює кожне текстове значення мітки числом. Інший метод - це однократне кодування, яке перетворює кожне значення текстової мітки на стовпчик двійкових значень.

Більшість фреймворків машинного навчання містять функції, які виконують перетворення за вас. Кодування міток може іноді обдурити систему машинного навчання, змусивши її думати, що закодований стовпець є впорядкованим, тому перевага надається однократному кодуванню.

Ви повинні нормалізувати числові дані, перш ніж використовувати їх для машинної регресії.

В іншому випадку, більші числа діапазонів можуть підкреслювати евклідову відстань між векторами ознак, і вони можуть бути посилені за рахунок інших полів, і оптимізація градієнтного спуску може мати труднощі з об'єднанням.

  • Існують різні методи нормалізації та стандартизації даних для ML, такі як нормалізація середнього значення, стандартизація, нормалізація min-max та масштабування до одиничної довжини.
.

Які особливості машинного навчання?

"Ознака" схожа на пояснювальну змінну, яка використовується в статистичних методах, таких як лінійна регресія. Вектори ознак - це числові вектори, які об'єднують всі ознаки в одному рядку.

Вибір мінімального набору незалежних змінних, які пояснюють проблему, є частиною мистецтва відбору ознак.

Якщо дві змінні сильно корелюють, їх слід або об'єднати в одну ознаку, або вилучити одну з них.

Деякі перетворення, що використовуються для створення нових ознак або зменшення розмірності векторів ознак, є простими.

Загальні алгоритми машинного навчання

Алгоритми машинного навчання варіюються за складністю від логістичної та лінійної регресії до комбінацій інших моделей (так званих ансамблів) і глибоких нейронних мереж.

Як же навчаються алгоритми машинного навчання?

Машинне навчання використовує два методи: контрольоване навчання, яке передбачає навчання моделі на відомих вихідних і вхідних даних. Другий метод - це неконтрольоване навчання, яке передбачає виявлення елементів у вхідних даних, таких як внутрішні структури та приховані закономірності.

  • Коли матеріал, що використовується для навчання, не класифікується і не позначається, застосовуються алгоритми ML без нагляду. Некероване навчання досліджує, як немарковані дані можуть бути використані для виведення функції, що описує приховану структуру. Система не визначає відповідний результат, але вона досліджує дані і може виводити приховані структури з немаркованих даних, використовуючи набори даних.
  • Алгоритми ML під наглядом можуть передбачати майбутні події, застосовуючи те, чого вони навчилися в минулому, до нових даних, використовуючи марковані приклади. Алгоритм навчання ШІ створює функцію виведення для генерування прогнозів щодо вихідних значень на основі вивчення відомого навчального набору даних. Після достатнього навчання система може надавати цілі для будь-яких нових вхідних даних.
  • Алгоритми ШН з підкріпленням - це тип методу навчання, який взаємодіє з навколишнім середовищем, виконуючи дії і виявляючи помилки або винагороди. Найважливішими аспектами навчання з підкріпленням є пошук методом проб і помилок та відкладена винагорода.
  • Напівконтрольовані алгоритми ML знаходяться десь посередині між контрольованим і неконтрольованим навчанням, оскільки вони навчаються як на мічених, так і на немічених даних - як правило, невелика кількість мічених даних і велика кількість немічених даних. Цей метод дозволяє системам значно підвищити точність моделі машинного навчання.
.

Тож як нам визначити, що таке алгоритм машинного навчання? Це двигуни машинного навчання, які перетворюють набір даних на модель.

Тип алгоритму, який працює найкраще (некерований, керований, класифікація, регресія), визначається типом задачі, що вирішується, наявними обчислювальними ресурсами та характером даних.