Regression

Оновлено: 31.07.2023

Штучний інтелект (ШІ) останнім часом набуває все більшої популярності. Люди з різних галузей намагаються використовувати ШІ, щоб спростити свою роботу. Наприклад, економісти використовують ШІ для прогнозування майбутніх споживчих цін, щоб отримати вигоду. В іншому прикладі лікарі використовують ШІ, щоб визначити, чи є пухлина доброякісною або злоякісною. Ще один приклад - метеорологи використовують AI/ML для прогнозування погоди, або рекрутери, які переглядають резюме кандидатів і перевіряють, чи відповідає їхня кваліфікація мінімальним вимогам вакансії. Алгоритми ML є рушійною силою широкого впровадження ШІ. Алгоритм лінійної регресії - це фундаментальний алгоритм, з якого починає будь-який ентузіаст машинного навчання, і ми поговоримо про лінійну регресію докладніше тут.

Одним з найпопулярніших типів моделей машинного навчання є регресія, яка використовується для оцінки взаємозв'язків між змінними. Регресія в моделях машинного навчання оцінює числове значення, тоді як моделі класифікації визначають, до якої групи належить спостереження.

Будь-яка задача машинного навчання, пов'язана з неперервними числами, що включає широкий спектр реальних застосувань, вимагає регресійного машинного навчання.

Лінійна регресія

Лінійна регресія ШІ - це керований алгоритм машинного навчання з безперервним і постійним нахилом очікуваної продуктивності. Замість того, щоб намагатися класифікувати значення на групи (наприклад, коти і собаки), він використовується для оцінки значень у безперервному діапазоні (наприклад, ціна і дохід). Існує дві основні категорії:

  • Проста регресія
  • Множинна регресія

Проста лінійна регресія (SLR)

Тип лінійної регресії для алгоритму машинного навчання, відомий як проста лінійна регресія, моделює зв'язок між залежною змінною та однією незалежною змінною. Модель простої лінійної регресії показує лінійну або похилу прямолінійну залежність, саме тому вона називається простою лінійною регресією.

Залежна змінна повинна бути неперервною/реальною величиною, що є найважливішим аспектом аналізу простої лінійної регресії. Незалежна змінна, з іншого боку, може бути обчислена з використанням безперервних або категоріальних значень.

Основними цілями алгоритму простої лінійної регресії є

Створіть модель, яка відображає взаємозв'язок між двома змінними. Наприклад, співвідношення доходу до витрат, співвідношення досвіду до зарплати тощо.

Прогнозуються нові відкриття. Наприклад, прогноз погоди на основі температури, дохід компанії на основі річних витрат і так далі.

Множинна лінійна регресія (MLR)

Раніше ми дізналися про SLR, або просту лінійну регресію, де для моделювання змінної відгуку використовується одна незалежна змінна. Однак є кілька випадків, коли на змінну відгуку впливає більше однієї предикторної змінної; в цих випадках використовується алгоритм множинної лінійної регресії (МЛР).

Крім того, MLR є розширенням SLR в тому сенсі, що він прогнозує змінну відгуку, використовуючи більш ніж одну змінну-предиктор. Його можна описати наступним чином:

"MLR (Multiple Linear Regression) - це загальний алгоритм регресійного аналізу, який моделює лінійну залежність між однією неперервною залежною змінною та декількома незалежними змінними".

На завершення, ось кілька важливих припущень лінійної регресії, які слід пам'ятати при створенні такої моделі:

Лінійний зв'язок між ознаками та ціллю: Лінійна регресія передбачає, що залежні та незалежні змінні мають лінійний зв'язок.

Термін "мультиколінеарність" означає високий ступінь кореляції між незалежними змінними. Через мультиколінеарність визначення справжнього зв'язку між предикторами та цільовими змінними може бути складним. Або, інакше кажучи, важко визначити, яка змінна-предиктор впливає на цільову змінну, а яка ні. Як наслідок, модель припускає, що атрибути або незалежні змінні мають незначну мультиколінеарність або взагалі не мають її.

Гомоскедастичність: Гомоскедастичність має місце, коли член похибки однаковий для всіх значень незалежних змінних. На діаграмі розсіювання з гомоскедастичністю не повинно бути простого шаблонного розподілу результатів.

Нормальний розподіл похибки: Вважається, що члени похибки в лінійній регресії мають нормальний розподіл. Якщо члени похибки розподілені ненормально, довірчі інтервали стають або занадто великими, або занадто короткими, що ускладнює знаходження коефіцієнтів.

Перевірити це можна за допомогою діаграми q-q. Якщо графік зображує пряму лінію без відхилень, то похибка зазвичай є розподіленою.

Відсутність автокореляцій: З точки зору похибки, лінійна регресійна модель припускає відсутність автокореляції. Якщо існує певний зв'язок у термінах помилок, точність моделі буде значно знижена. Якщо існує залежність між залишковими похибками, то автокореляція, ймовірно, має місце.