Training-Serving Skew

Оновлено: 31.07.2023

Що таке перекіс між навчанням та обслуговуванням?

Коли є розбіжність між навчальними та робочими даними, це типова проблема машинного навчання, яка називається перекосом між навчанням та роботою. Навіть якщо модель досягла високої точності під час навчання, їй може бути важко узагальнювати нові ситуації через цю невідповідність.

  • Навчально-навчальний перекіс - це різниця у розподілі, розмірі або властивостях між навчальними даними та даними, що подаються.
.

Це може статися, якщо навчальні дані неточно відображають реальні дані або якщо реальні дані змінюються з часом.

Уявімо, що модель тренується, використовуючи виключно фотографії котів. У цьому випадку модель може добре впоратися з фотографіями котів під час навчання, але матиме труднощі, коли їй пред'являть зображення собаки чи іншої тварини на етапі подачі. Це пов'язано з тим, що модель була навчена розпізнавати лише котів.

Щоб виправити перекіс навчання, переконайтеся, що ваша модель протестована на широкому діапазоні даних і що ваші навчальні дані точно відображають дані, з якими ви будете працювати в реальному світі.

Важливість перекосу "навчання - служіння"

Асиметрія в машинному навчанні суттєво впливає на правильність моделі та її продуктивність у реальних умовах. Погана продуктивність, неточні прогнози і навіть потенційна шкода для людей або організацій, які покладаються на результати роботи моделі, можуть бути наслідком того, що модель навчається на даних, які не є репрезентативними для реального світу, або якщо модель не оцінюється на різноманітному наборі даних під час фази обслуговування.

Ось кілька найбільш переконливих аргументів на користь перекосу "навчання - служіння":

  • Сценарії в реальному світі складні - Дані з реального світу часто складніші та різноманітніші, ніж навчальні дані. Моделі можуть не мати здатності узагальнювати нові події або умови, якщо вони не навчені на широкому спектрі даних.
  • Прийняття рішень- Моделі машинного навчання часто використовуються для прийняття рішень, які мають далекосяжні наслідки для людей і бізнесу. Якщо не протестувати модель на репрезентативній вибірці населення, підвищується ризик того, що вона призведе до дискримінаційних або шкідливих результатів.
  • Розподіл даних- Коригування може відбуватися з ряду причин, включаючи зміни в поведінці користувачів, варіації ринкових обставин і введення нових правил. Під час фази обслуговування продуктивність моделі може постраждати, якщо вона не була навчена на свіжих даних або не була переоцінена з використанням різних наборів даних.
.

Перетворення нахилу

Як різновид підготовки даних, перетворення асиметрії виправляє асиметричний розподіл даних. Коли дані не розподілені нормально навколо середнього значення, кажуть, що вони асиметричні. Такий розподіл може мати дуже довгі хвости з одного або іншого боку. Оскільки багато моделей машинного навчання побудовано на припущенні, що дані розподілені рівномірно, це може стати проблемою.

Виробнича МЛ може отримати вигоду від перетворення асиметрії, оскільки це зменшує вагу, яку мають викривлені дані на їхні прогнози. Після такого перетворення в даних не повинно виникати додаткових упереджень.

Уникнути перекосу на користь навчання

У моделях машинного навчання можна уникнути перекосу на користь навчання або зменшити його вплив різними способами:

  • Щоб гарантувати здатність моделі успішно узагальнювати нові обставини, дуже важливо використовувати різноманітний і репрезентативний збір даних на етапі навчання.
  • Слідкуйте за тим, наскільки добре працює модель, як під час навчання, так і під час її використання у виробництві.
  • Щоб модель залишалася точною та ефективною в умовах мінливого розподілу даних, її слід регулярно перенавчати.
  • Використовуйте доповнення даних, щоб зменшити ефект перекосу, пов'язаного з навчанням, та покращити узагальнюваність моделі до нових умов.
.

Використовуйте навчання з перенесенням, щоб підвищити продуктивність моделі в нових умовах, а також зменшити кількість даних, необхідних для навчання.