Generalized Linear Models

Оновлено: 31.07.2023

Що таке GLM?

Клас регресійних моделей, відомих як узагальнена лінійна модель, описує змінну відгуку Y та випадкову похибку за допомогою експоненціальної групи розподілів, таких як біноміальний, гамма-, нормальний, пуассонівський, обернений гауссівський і так далі. GLM припускає, що розподіл змінної відгуку належить до експоненціальної групи розподілів. Це відрізняється від звичайних лінійних моделей, в яких Y- змінна відгуку, а також випадкова похибка повинні базуватися тільки на розподілі. Моделі можуть бути описані в термінах очікуваного значення (середнього) змінної відгуку.

Різні функції зв'язку використовуються на основі оціненої дисперсії залежних змінних для перетворення g(μ) у вихідне значення, яке потім моделюється за допомогою різних типів регресійних моделей. Якщо змінна відгуку має регулярний розподіл, а функція зв'язку є функцією тотожності, то модель виглядає наступним чином. У наведеному нижче рівнянні Y представляє очікуване значення або E. (Y).

  • Загальні моделі використовуються для прогнозування значення змінної відгуку, де змінна відгуку, Y та член помилки (ϵ) слідують нормальному розподілу X за заданим значенням предиктора
.

Параметр нормального розподілу відображає середнє значення як комбінацію ваг (W) і предиктора (X), а також стандартне відхилення. Загальні моделі представлені узагальненими моделями лінійної регресії та ANOVA.

Функція зв'язку в узагальненій лінійній моделі машинного навчання - це функція тотожності. Пам'ятайте, що функція зв'язку перетворює ймовірність діапазонів категоричної змінної відгуку на необмежену безперервну шкалу. Після завершення перетворення можна використовувати лінійну регресію для моделювання зв'язку між предикторами та відповіддю.

Під час навчання регресійних моделей важливо розуміти, що моделюється середнє значення залежної змінної, а не фактичні значення. Оскільки змінна відгуку Y має нормальний розподіл, сума вагових коефіцієнтів і предикторної змінної може бути прирівняна до очікуваного значення Y.

Функція тотожності - це функція зв'язку, яка використовується в моделі лінійної регресії для з'єднання середнього прогнозованого значення змінної відгуку, Y, та суми вагових коефіцієнтів і предикторних змінних. В результаті g(E(Y)) перетворюється на E(Y), що позначається як Ypredicted.

Коли використовувати GLM?

Використовуються різні типи узагальнених лінійних моделей у порівнянні з теоретичною дисперсією змінних відгуку.

  • Логістичну регресію можна використовувати, якщо змінна відгуку пов'язана з бінарним результатом. Sklearn LogisticRegression можна використовувати для моделювання бінарної змінної відгуку.
  • Регресія Пуассона з лог-зв'язком використовується, якщо змінна відгуку відображає кількість (невід'ємне цілочисельне значення) або відносні частоти (невід'ємні).
  • Гамма-регресія з лог-зв'язком може використовуватися, якщо значення змінної відгуку є високими та асиметричними.
  • Якщо значення змінної відгуку виявляються важчими, ніж значення гамма-розподілу, можна використовувати регресію зі зворотним розподілом.
.

Ключові висновки

  • GLM може представляти змінні відгуку за допомогою таких розподілів, як гамма, біноміальний, Твіді тощо.
  • Python Sklearn включає класи для навчання GLM-моделей на основі розподілу ймовірностей та змінних відгуку.
  • Змінна відгуку моделюється як лінійна суміш вагових коефіцієнтів та змінних предикторів за умови, що змінна відгуку та стандартна похибка слідують експоненціальній сім'ї розподілів за допомогою узагальненого лінійного моделювання.
.