Ridge Regression
Оновлено: 31.07.2023
Що таке регресія хребта?
Це метод аналізу мультиколінеарності в наборах даних лінійних регресій. Він найбільш доречний, коли кількість предикторів у наборі даних перевищує кількість подій. Другий найкращий випадок - коли набір демонструє мультиколінеарність.
Мультиколінеарність виникає, коли змінні предиктора корелюють між собою. Гребенева регресія в машинному навчанні має на меті зменшити стандартну похибку шляхом включення певного зсуву в оцінки регресії. Зменшення стандартної похибки в оцінках регресії значно підвищує надійність оцінок.
- Грядкова регресія - це метод усунення мультиколінеарності з моделей даних.
Стандартизація змінних
Першим кроком у регресії є стандартизація змінних. Як залежні, так і незалежні змінні мають бути стандартизовані шляхом віднімання їхніх середніх значень і ділення результату на їхні стандартні відхилення. Звичайною практикою є вказівка на те, чи є змінні у формулі регресії стандартизованими, чи ні.
Щоб уникнути скорочень, пов'язаних зі стандартизацією певних змінних, у всіх розрахунках регресії використовуються стандартизовані змінні. Нарешті, коефіцієнти можуть бути перемасштабовані до їхніх початкових масштабів.
Регулювання
У лінійній регресії оцінкою лінійної регресії є метод стиснення. Оцінювач стиснення - це змінна, яка генерує новий метод оцінювання, зменшений для отримання значень, які є ближчими до істинних параметрів. Наближену оцінку за методом найменших квадратів можна покращити, зменшивши її за допомогою оцінювача, особливо коли дані є мультиколінеарними.
Штраф за регресію застосовується до коефіцієнтів. Згортання відбувається шляхом застосування до коефіцієнтів одного і того ж множника. Це гарантує, що жодна змінна не буде пропущена при побудові моделі.
Мультиколінеарність
Наявність зв'язку між змінними в модельованих даних називається мультиколінеарністю. Вона може призвести до неточностей в оцінках коефіцієнтів регресії. Вона також може збільшити стандартні помилки в регресорах і знизити ефективність будь-яких t-тестів. Це може призвести до оманливих результатів і p-значень, а також до збільшення надмірності моделі, що робить прогнозування регресії неефективним і менш надійним.
Мультиколінеарність може потрапляти в дані з різних джерел, включаючи збір даних, демографічні обмеження або обмеження лінійної моделі, надмірно деталізоване моделювання, викиди, визначення або вибір моделі.
- Коли дані збираються за допомогою неефективної стратегії вибірки, це може призвести до мультиколінеарності. Політичні або юридичні обмеження, незалежно від застосованої методики вибірки, призводять до мультиколінеарності в популяції або моделі.
Надмірне визначення моделі також призведе до мультиколінеарності, оскільки змінних більше, ніж спостережень. Цьому можна запобігти під час створення моделі. Використання незалежних змінних, які раніше взаємодіяли у вихідному наборі змінних, може потенційно призвести до мультиколінеарності через вибір або специфікацію моделі. Пропуски - це виняткові значення змінних, які можуть призвести до мультиколінеарності. Видалення пропусків перед проведенням регресії може усунути мультиколінеарність.
Виявлення та ремонт
Ідентифікація мультиколінеарності є критично важливою для зменшення систематичного відхилення в моделях для ефективності прогнозування. По-перше, дослідіть пояснювальні змінні на наявність зв'язку на парних діаграмах розсіювання. На наявність мультиколінеарності можуть вказувати високі парні кореляції між незалежними змінними.
По-друге, мультиколінеарність може бути виявлена шляхом врахування факторів інфляції дисперсії (VIF). Оцінка VIF 10 або вище вказує на те, що змінні є колінеарними. У гребеневій регресії функція втрат розширюється, щоб ми не лише мінімізували суму квадратів залишків, але й зменшували довжину оцінок параметрів, щоб зменшити їх до нуля. По-третє, мультиколінеарність можна виявити, досліджуючи, чи є власні значення кореляційної матриці близькими до 0. Замість кількісних розмірів власних значень слід використовувати числа умов. Чим вищі значення умов, тим більша мультиколінеарність.
Виправлення мультиколінеарності залежить від її причини. Якщо джерелом колінеарності є збір даних, виправлення передбачає збір нових даних з відповідної субпопуляції. Якщо причиною є вибір лінійної моделі, рішенням буде спрощення моделі за допомогою відповідних процедур вибору змінних. Якщо джерелом мультиколінеарності є конкретні спостереження, їх слід вилучити. Гребенева регресія також добре усуває мультиколінеарність.