Reinforcement Learning

Оновлено: 31.07.2023

Як працює навчання з підкріпленням?

Моделі машинного навчання з підкріпленням навчаються виносити серію суджень за допомогою навчання. У непередбачуваному і потенційно складному середовищі агент повинен навчитися досягати мети. Штучний інтелект потрапляє в ігрове середовище, коли він навчається підкріпленню. Щоб знайти рішення проблеми, комп'ютер використовує метод спроб і помилок.

Штучний інтелект отримує або винагороду, або покарання за дії, які він виконує, щоб змусити його виконати те, що бажає програміст. Його мета - максимально збільшити загальний виграш.

Незважаючи на те, що дизайнер встановлює політику винагороди - тобто правила гри - він не дає моделі жодних підказок чи ідей щодо того, як вирішити гру.

Починаючи з абсолютно випадкових випробувань і просуваючись до складних тактик і надлюдських навичок, модель повинна з'ясувати, як виконати завдання, щоб максимізувати винагороду. Наразі навчання з підкріпленням є найефективнішою технікою, яка дозволяє підштовхнути машину до креативності, використовуючи силу пошуку та численні випробування.

  • Штучний інтелект, на відміну від людини, може набувати досвіду з тисяч одночасних ігрових партій, якщо алгоритм навчання з підкріпленням виконується на потужній комп'ютерній інфраструктурі.
.

Труднощі навчання з підкріпленням

Найскладнішим аспектом навчання з підкріпленням є налаштування середовища моделювання, яке дуже залежить від завдання. Підготувати симуляційне середовище для того, щоб модель стала надлюдиною в шахових іграх, досить просто.

Однак, коли йдеться про розробку моделі, здатної керувати автономним транспортним засобом, створення реалістичного симулятора має важливе значення перед тим, як дозволити транспортному засобу виїхати на дорогу. Модель повинна навчитися гальмувати або уникати зіткнення в безпечному середовищі, де ціна жертви у вигляді тисячі автомобілів є незначною.

  • Складною частиною є перенесення моделі з навчального середовища в реальний світ.
.

Ще однією проблемою є масштабування та налаштування нейронної мережі, яка керує ботом. Немає іншого способу спілкуватися з мережею, окрім як через систему заохочень і покарань.

Алгоритми навчання з підкріпленням

Тип навчання з підкріпленням може бути реалізований трьома способами.

  • На основі цінності - Метою підходу навчання з підкріпленням на основі цінності є оптимізація функції цінності V. (s). У цій стратегії агент очікує довгострокового повернення поточних станів політики.
  • На основі політики - У цій моделі навчання з підкріпленням ви прагнете придумати політику, яка дозволить вам отримати найбільшу винагороду в майбутньому, виконуючи дії в кожному стані.
  • На основі моделі - У цьому підході до навчання з підкріпленням ви повинні розробити віртуальну модель для кожного середовища. Агент дізнається, як діяти в цьому конкретному середовищі

Навчання з підкріпленням проти навчання під контролем

Навчання з підкріпленням пов'язане з прийняттям послідовних рішень. Тобто ви приймаєте рішення на основі поточних даних, а наступні дані визначаються вашим рішенням. Судження, які ви робите під час навчання з підкріпленням, чи то в пакетному, чи то в онлайн-режимі, не мають жодного відношення до того, що ви побачите в майбутньому. Це ключова відмінність між навчанням під контролем і навчанням з підкріпленням.

Прикладом навчання з підкріпленням є настільні ігри, такі як шахи або го, а також роботизовані маніпуляції в навколишньому середовищі, тоді як навчання з контролем - це завдання на кшталт розпізнавання об'єктів.

Оскільки кожне рішення є автономним у керованому навчанні, кожному рішенню присвоюється мітка.

  • Тому важко сказати, чи правильно робот виконує завдання до того, як воно буде завершено.
.

Загалом, ви можете отримувати винагороду на проміжних рівнях за підказки агенту. Ви не максимізуєте винагороду на кожному кроці, тому що метою є визначення послідовності з найвищою загальною винагородою. Тому винагорода за поточний крок є лише підказкою - можливо, ви захочете зробити крок з меншою винагородою сьогодні, якщо він приведе вас до наступних етапів з більшою винагородою.

  • Не дивлячись на те, що навчання з підкріпленням, глибоке навчання та машинне навчання взаємопов'язані, жодне з них не зможе замінити інші.
.

Висновок

Навчання з підкріпленням - це комп'ютерна техніка для розуміння та автоматизації прийняття цілеспрямованих рішень і навчання. Вона відрізняється від попередніх обчислювальних підходів тим, що фокусується на тому, що агент навчається безпосередньо з оточення, а не залежить від зразкового нагляду або всеосяжних моделей середовища.

Однак традиційні методи машинного навчання стануть у пригоді в багатьох випадках. У комерційній обробці даних та управлінні базами даних, як правило, корисними є чисті алгоритмічні рішення, які не включають машинне навчання.

Процес навчання з підкріпленням іноді використовується, щоб допомогти процесу, який виконується іншим методом, наприклад, знайти спосіб підвищити швидкість або ефективність.

Нейронні мережі можуть бути дуже корисними, коли машина повинна впоратися з неструктурованими і несортованими даними або з різноманітними типами даних.

Навчання з підкріпленням у машинному навчанні, безперечно, є революційною технологією. Однак її не обов'язково застосовувати в кожній ситуації. Тим не менш, навчання з підкріпленням видається найбільш вірогідним методом для того, щоб зробити машину креативною - зрештою, дослідження нових, творчих методів виконання завдань - це і є творчість.