Machine Learning Bias

Оновлено: 31.07.2023

Що таке упередженість в алгоритмах машинного навчання?

Упередженість в ML - це різновид помилки, коли деяким аспектам набору даних надається більша вага та/або репрезентативність, ніж іншим. Викривлений результат, низький рівень точності та аналітичні помилки є наслідком упередженості набору даних, який неточно відображає сценарій використання моделі.

Для проектів ML потрібні навчальні дані, які відображають реальний світ, оскільки саме завдяки цим даним модель вчиться робити те, для чого вона була створена. Упередженість машинного навчання може проявлятися різними способами - від упередженості виключення та упередженості пригадування до упередженості вибірки та упередженості асоціацій.

Для будь-якого проекту, пов'язаного з даними, дуже важливо знати про потенційну упередженість даних машинного навчання. Ви можете виявити їх до того, як вони стануть проблемою, або відреагувати на них, коли вони з'являться, заздалегідь запровадивши правильні системи та залишаючись на висоті збору, маркування та впровадження даних. Ось чому далі ми розглянемо різні типи упередженості, а потім поговоримо про те, як допомогти зменшити упередженість у машинному навчанні.

Типи упередженості машинного навчання

Тут ми обговоримо деякі з найпоширеніших типів упереджень у машинному навчанні.

  • Виключення - найчастіше зустрічається на етапі попередньої обробки даних. Здебільшого це випадок видалення важливих даних, які вважаються неважливими. Це також може статися як результат систематичного пропуску певних даних. Розглянемо наступний сценарій: У вас є набір даних про споживчі продажі в Іспанії та Франції. Оскільки 98 відсотків ваших споживачів з Франції, ви вирішили видалити дані про місцезнаходження, оскільки вони більше не є релевантними. Однак це означає, що ваша модель не врахує, що іспанські споживачі витрачають удвічі більше.
  • Пригадати - Це тип упередженості оцінювання, який часто трапляється на етапі проекту, відомому як маркування даних. Коли ви по-різному називаєте схожі типи даних, ви отримуєте упередженість пригадування. В результаті страждає точність. Скажімо, ваша команда позначає зображення телефону як непошкоджені, частково пошкоджені або пошкоджені. Ваші дані будуть суперечливими, якщо одна людина назве одне зображення частково пошкодженим, а інше, схоже зображення - пошкодженим.
  • Вибірка - Вибіркова похибка виникає, коли реалії середовища, в якому буде працювати модель ML, не відображають набір даних. Наприклад, деякі системи розпізнавання облич навчалися переважно на зображеннях білих чоловіків. Коли мова йде про жінок і людей інших національностей, ці моделі значно менш точні. Це упередження також відоме як упередження вибору.
  • Асоціативне - Асоціативне упередження виникає, коли культурне упередження посилюється або множиться за допомогою моделі ML. Цілком можливо, що ваш набір даних містить набір професій, в яких жінки працюють лікарями, а всі чоловіки - медсестрами. Це не виключає можливості того, що жінки стануть медсестрами, а чоловіки - лікарями. З іншого боку, жінки-медсестри і чоловіки-лікарі не існують у вашій моделі машинного навчання.
.

Як усунути упередженість у моделях ШІ та ML?

Перше, що нам потрібно зрозуміти, це те, що наразі ми не можемо повністю усунути упередженість у моделях ШІ та МН. Виявивши упередженість у моделях машинного навчання, ми можемо спробувати її усунути.

Наведене вище твердження технічно не відповідає дійсності. Якість вхідних даних системи штучного інтелекту визначає, наскільки добре вона працює. Ви можете створити систему штучного інтелекту, яка прийматиме неупереджені рішення, якщо зможете очистити свій набір даних від припущень про стать, расу та інші поняття.

Однак, зважаючи на вищезазначене твердження про ШІ, ми не можемо очікувати, що він буде об'єктивним (принаймні, не повністю) в найближчому майбутньому. ШІ хороший настільки, наскільки хороші дані, які були створені людьми, що також створили цей ШІ. Однак, як ми всі знаємо, в будь-якій сфері, в тому числі і в ШІ, існує багато людських помилок, і тому об'єктивного ШІ, ймовірно, ніколи не буде. Це можна вважати парадоксом.

Отже, як ми можемо виправити упередженість у наших моделях ML та ШІ? Ну, для початку, якщо у вас є повний набір даних, ви повинні визнати, що упередження штучного інтелекту та машинного навчання можуть виникати лише внаслідок людських упереджень, і ви повинні працювати над тим, щоб усунути ці упередження з набору даних. Однак це не так просто, як здається. Наївним методом видалення захищених класів (наприклад, раси чи статі) з даних є видалення назв (міток), які спричиняють упередженість алгоритму. Однак цей метод може не спрацювати, оскільки видалені мітки можуть вплинути на розуміння моделі та точність ваших результатів. Як наслідок, не існує швидких і простих рішень для усунення всіх упереджень.