Regression Algorithms
Оновлено: 31.07.2023
Вступ
Регресія - ще один важливий і широко використовуваний інструмент статистики та машинного навчання. Основна мета регресійних проектів - передбачити безперервні числові значення в якості вихідних міток або відповідей на вхідні дані. Вихідні дані моделі будуть залежати від того, чого вона навчилася на етапі навчання. Регресійні моделі виявляють унікальний зв'язок між входами і виходами, використовуючи характеристики вхідних даних і відповідні їм безперервні числові вихідні значення.
Існує два типи регресійних моделей:
- Проста регресійна модель: Це найпростіша регресійна модель, в якій прогнози будуються на основі одного, одновимірного атрибута даних.
- Множинна регресійна модель: Прогнози будуються на основі декількох аспектів даних.
Типи алгоритмів регресії
- Проста лінійна регресія - це статистичний підхід для узагальнення та дослідження зв'язків між двома неперервними (кількісними) змінними. Лінійна регресія - це лінійна модель, в якій передбачається, що вхідні змінні (x) і єдина вихідна змінна (y) мають лінійний зв'язок (y). Лінійна комбінація вхідних змінних може бути використана для обчислення y. (x). Базовий підхід лінійної регресії використовується, коли є лише одна вхідна змінна (x). Процес відомий як множинна лінійна регресія, коли є кілька вхідних змінних.
- Одним з найбільш широко використовуваних регресійних підходів у бізнесі, який широко застосовується в скорингу кредитних карток і клінічних випробуваннях, є логістична регресія. Однією з найпривабливіших особливостей цього популярного методу є те, що він дозволяє включати багато залежних змінних, які можуть бути як безперервними, так і дихотомічними. Ще однією значною перевагою цього підходу до контрольованого машинного навчання є те, що він пропонує кількісне значення для вимірювання сили зв'язку по відношенню до інших змінних. Незважаючи на його популярність, експерти вказують на його недоліки, включаючи відсутність строгих методів, а також високий рівень залежності моделі.
- Машина опорних векторів (SVM) - це ще один надзвичайно потужний алгоритм з міцним теоретичним підґрунтям. Цей керований підхід до машинного навчання пропонує високий ступінь регуляризації і може бути використаний для вирішення проблем класифікації та регресії. Вони відрізняються використанням ядер, розрідженістю розв'язку та контролем потужності, що досягається за рахунок маніпуляцій з маржею, кількістю опорних векторів і так далі. Потужність системи визначається параметрами, які не залежать від розмірності простору ознак. Метод SVM використовує нормалізацію числових характеристик за допомогою z-рахунку, оскільки він діє на них нативно. Методи опорних векторних машин вирішують проблеми регресії з використанням епсилон-нечутливої функції втрат.
- Мета LASSO-регресії - знайти підмножину предикторів, яка має найменшу кількість помилок прогнозування для кількісної змінної відгуку. Підхід працює за рахунок обмеження параметрів моделі, внаслідок чого коефіцієнти регресії для деяких змінних зменшуються до нуля.
Після процедури стиснення з моделі вилучаються змінні з нульовим коефіцієнтом регресії. Змінна відгуку найбільш тісно пов'язана зі змінними з ненульовими коефіцієнтами регресії. Пояснювальні змінні можуть бути кількісними, категоріальними або їх комбінацією. Цей регресійний аналіз ласо - це, по суті, стратегія скорочення та відбору змінних, яка допомагає аналітикам визначити найбільш значущі предиктори.
Висновок
Функція інтелектуального аналізу даних, яка називається регресією, прогнозує числові значення вздовж континууму. Алгоритми регресії можна використовувати для прогнозування прибутку, доходу, відсоткових ставок за іпотекою, цін на житло, площі, клімату та відстані. Наприклад, регресійна модель може бути використана для прогнозування вартості будинку на основі його розташування, кількості кімнат, розміру ділянки та інших параметрів.
Відправною точкою для завдання регресії є збір даних з відомими цільовими значеннями. Наприклад, на основі даних спостережень за багатьма будинками протягом певного часу можна створити регресійну модель, яка прогнозує ціни на житло. Окрім вартості, інформація може включати вік будинку, площу, кількість кімнат, податки, шкільний округ, близькість до торгових центрів та інші фактори. Метою буде вартість будинку, предикторами - інші характеристики, а дані для кожного будинку - окремий випадок.