Deep Reinforcement Learning

Оновлено: 31.07.2023

Глибоке навчання - захоплююча галузь штучного інтелекту. Воно відповідальне за деякі з найбільш вражаючих успіхів ШІ-спільноти, таких як самокеровані автомобілі, роботи, перемоги над людьми у відеоіграх і розробка апаратного забезпечення для ШІ.

  • Глибоке навчання з підкріпленням використовує здатність нейронних мереж до навчання для вирішення проблем, які є занадто складними для традиційних підходів до навчання з підкріпленням.
.

Глибоке підкріплення набагато складніше освоїти, ніж інші напрямки машинного навчання.

Як це працює?

Агент і середовище знаходяться в центрі будь-якої задачі навчання з підкріпленням. Середовище містить інформацію про поточний стан системи. Агент відстежує ці стани і діє, щоб взаємодіяти з навколишнім середовищем. Дії можуть бути як дискретними, так і безперервними за своєю природою. В результаті цих дій середовище змінюється. А агент отримує винагороду залежно від того, наскільки новий стан важливий для досягнення мети системи.

Кожен цикл називається кроком. Метод навчання з підкріпленням повторюється через фази, поки не буде досягнуто цільового стану або не буде досягнуто оптимальної кількості кроків. Ця послідовність дій називається епізодом. На початку кожного епізоду середовище повертається до початкового стану, а винагорода агента прирівнюється до 0.

  • Навчання з підкріпленням має на меті навчити агента виконувати дії, які максимізують його винагороду.
.

Політика - це функція прийняття рішень агентом. Мета глибокого зворотного навчання з підкріпленням - вивести базову структуру винагороди, яка керує поведінкою агента, на основі спостережень і моделі середовища. Зазвичай агенту потрібно кілька епізодів, щоб навчитися правильній політиці. Для менших проблем може бути достатньо кількох сотень подій, щоб навчити агента правильній політиці. Для більш складних ситуацій агенту можуть знадобитися мільйони навчальних епізодів.

Поглиблене навчання vs навчання з підкріпленням

Вони обидва є автономними системами навчання. Різниця полягає в тому, що глибоке навчання вивчається на тестовому наборі даних, а потім застосовується до нового набору даних, тоді як навчання з підкріпленням вивчається динамічно, змінюючи поведінку на основі постійного зворотного зв'язку для оптимізації винагороди.

Вони не є несумісними. Насправді DL може використовуватися в системі RL, яка відома як навчання з глибоким підкріпленням.

Використання глибокого навчання з підкріпленням

  • Автономні автомобілі: Агентом в автономному керуванні є автомобіль, а середовищем - ландшафт, яким рухається автомобіль. Агент RL стежить за навколишнім середовищем за допомогою датчиків. Агент може виконувати навігаційні дії, такі як прискорення, гальмування, поворот ліворуч або праворуч, або нічого не робити. Агент RL отримує винагороду за те, що залишається на маршруті, уникає аварій, дотримується правил дорожнього руху і залишається на шляху.
  • Виробництво - Інтелектуальні роботи все частіше використовуються на складах, щоб сортувати мільйони товарів і доставляти їх потрібним людям. Коли робот обирає гаджет, який потрібно покласти в коробку, глибоке навчання допомагає йому зрозуміти, чи вдалося це зробити, чи ні. Він буде краще використовувати цю інформацію в майбутньому.
  • Медицина - Безперервний контроль за допомогою навчання з глибоким підкріпленням має величезні перспективи для покращення охорони здоров'я, від вибору найкращих планів лікування та діагностики до клінічних випробувань, досліджень нових ліків та автоматизованої терапії.
  • Боти - Глибоке підкріплення використовується для підтримки інтерактивної парадигми інтерфейсу користувача, яка дозволяє створювати ботів зі штучним інтелектом. Завдяки глибокому навчанню боти швидко вивчають тонкощі і семантику мови в багатьох сферах для автоматизованого розуміння голосу і природної мови.
.

Поглиблене навчання з підкріпленням у майбутньому

Спільнота ШІ розділилася в думках щодо того, як далеко можна просунути глибоке навчання з підкріпленням. Деякі експерти вважають, що з правильною архітектурою RL можна вирішити будь-яку проблему, навіть штучного загального інтелекту. Ці експерти вважають, що навчання з підкріпленням - це той самий процес, який привів безпосередньо до природного інтелекту, і що за наявності достатньої кількості часу, енергії та правильної винагороди ми зможемо відновити інтелект людського рівня.

Інші вважають, що навчання з підкріпленням не здатне вирішити деякі з найбільш фундаментальних проблем штучного інтелекту. Ця друга група вважає, що, незважаючи на свої переваги, моделі глибокого підкріплення потребують чітко визначених завдань і не можуть самостійно відкривати нові проблеми та відповіді на них.

У будь-якому випадку, неможливо заперечувати, що навчання з глибоким підкріпленням допомогло у вирішенні деяких надзвичайно складних проблем і в осяжному майбутньому залишатиметься основною сферою інтересів і досліджень для спільноти ШІ.