Model Drift

Оновлено: 31.07.2023

Вибір бізнес-моделей все більше залежить від алгоритмів машинного навчання. І, як і будь-який інший бізнес-план, ці моделі повинні з часом змінюватися через технологічне явище, відоме як "дрейф моделі ML". Хоча більшість навчальних програм, статей та публікацій визначають життєвий цикл машинного навчання (МН), який починається зі збору даних і закінчується розгортанням моделі МН у відповідному середовищі, вони не беруть до уваги важливий аспект життєвого циклу МН: дрейф моделі.

Зв'язок між цільовою змінною та незалежними змінними змінюється з часом. В результаті цього дрейфу модель стає нестабільною, а прогнози з часом стають все більш неточними.

Які у вас є варіанти вирішення цієї проблеми?

Найпростіший спосіб вирішити цю проблему - продовжувати переналаштовувати моделі. Оцінка того, коли дрейф починає просочуватися в модель, може бути сформована на основі попереднього досвіду. В результаті цього модель може бути проактивно перероблена, щоб зменшити ризики дрейфу.

Зважування даних може бути життєздатною альтернативою в умовах, коли дані змінюються з часом. Наприклад, фінансові моделі, які визначають певні параметри на основі нещодавніх транзакцій, можуть включати характеристики, які надають більшої ваги поточним транзакціям і меншої ваги попереднім транзакціям. Це не тільки гарантує стабільність моделі, але й допомагає уникнути можливих проблем, пов'язаних з дрейфом даних.

Моделювання самої зміни є більш складним підходом для боротьби з дрейфом моделі. Перша створена модель залишається статичною і використовується як відправна точка. Тепер можна розробляти нові моделі, щоб виправити прогнози цієї базової моделі в результаті зміни поведінки в останніх даних.

Чи потрібно регулярно перенавчати моделі?

Тепер, коли ми показали, що найбільш типовий варіант передбачає постійну перепідготовку моделей, виникає питання, як часто це потрібно робити. Існує кілька варіантів вирішення цього питання, кожен з яких залежить від конкретних обставин.

Час від часу проблема виринає на поверхню. Хоча очікування виникнення проблеми не є найелегантнішим рішенням, це єдиний вибір, коли мова йде про нові моделі, які не мають історичних даних, щоб передбачити, коли щось може піти не так. Коли проблема виникає, можна провести розслідування того, що пішло не так, і внести зміни, щоб запобігти виникненню таких проблем у майбутньому.

Іноді дані, що стосуються суб'єктів, які розглядаються в моделі, мають сезонні тенденції. У цьому випадку потреби моделі переналаштовуються відповідно до пори року. Наприклад, коли йдеться про витрати на відпустку, кредитні установи повинні мати особливі моделі, щоб врахувати різку зміну кількості населення, що проживає в цей період.

З іншого боку, безперервний моніторинг дрейфу моделі в моніторингу ML є найкращим методом виявлення дрейфу. Метрики, що стосуються стабільності моделі, необхідно відстежувати на регулярній основі. Залежно від галузі та бізнесу, цей період може становити тиждень, місяць, квартал або навіть рік. Режим моніторингу може бути ручним або автоматичним, з оповіщеннями та повідомленнями, що спрацьовують щоразу, коли виявляються несподівані відхилення.

Два типи штреків

Дрейф моделей можна розділити на два види: дрейф даних та дрейф концепцій. Перший називається дрейфом концепції. Він виникає, коли змінюються статистичні характеристики цільової змінної. Як бачимо, якщо змінюється визначення змінної, яку ми намагаємося спрогнозувати, модель не буде працювати так само добре для нового визначення.

Дрейф даних - це другий і найпоширеніший тип. Це відбувається, коли змінюються статистичні характеристики предикторів. Якщо змінюються базові змінні, модель неминуче дасть збій. Класичним прикладом того, що може статися, є зміна структури даних через сезонність.

Яка б бізнес-концепція не була успішною влітку, вона може виявитися невдалою взимку. У той час як попит на авіаперевезення зростає впродовж курортних сезонів, авіакомпаніям важко підтримувати заповнюваність рейсів у міжсезоння.