Zero-shot learning

Оновлено: 31.07.2023

За останні десятиліття машини стали розумнішими, але без маркованого набору даних видимих класів вони не в змозі розрізнити два схожі об'єкти. Це відома як проблема навчання з нульового пострілу в машинному навчанні (ZSL).

  • Навчання з нуля - це здатність виконувати завдання, не отримуючи жодних навчальних прикладів. Розглянемо випадок розпізнавання категорії об'єктів на зображеннях, якщо ви ніколи не бачили фотографій цього типу об'єктів. Ви могли б визначити, що на зображенні кіт, якщо б прочитали його вичерпний опис, навіть якщо б уперше побачили його
.

Люди здатні робити ZSL завдяки своїй поточній базі мовних знань, яка дає високорівневий опис нового або невідомого класу і встановлює зв'язок між ним і раніше баченими класами та візуальними уявленнями. Завдяки цьому людському таланту машинне ЗСЛ для масштабування візуального розпізнавання набуває все більшої популярності.

Підхід до навчання з нуля

Машинне навчання з використанням нульових знімків використовується для побудови моделей для класів, які ще не були позначені для навчання. Воно передає інформацію від вихідних класів до маркованих зразків, використовуючи властивості класів як частину інформації. ZSL складається з двох етапів:

  • Навчання - це процес отримання знань про якості.
  • Виведення, де інформація використовується для класифікації прикладів у новий набір класів.
.

Завдяки доступності даних, що містять мета-інформацію, останнім часом спостерігається сплеск інтересу до автоматичного розпізнавання атрибутів. Згідно з дослідженням, це виявилося особливо корисним для розпізнавання зображень.

  • Технології навчання з нульового пострілу призначені для вивчення проміжних семантичних шарів та їхніх властивостей, а потім застосування їх для прогнозування нового класу даних під час виведення.
.

Для ZSL також потрібен маркований навчальний набір з побачених класів і невидимих класів.

Як видимі, так і невидимі класи пов'язані у векторному просторі високої розмірності, відомому як семантичний простір, де знання про видимі класи можуть бути перенесені на невидимі класи.

ZSL можна вирішити у два кроки, використовуючи семантичний простір та візуальне представлення контенту зображення:

  • І візуальні вектори ознак, і прототипи можуть бути спроектовані у комбінований простір вбудовування.
  • У цьому просторі вбудовування використовується пошук найближчого сусіда (NN) для зіставлення проекції вектора ознак зображення з проекцією невидимого прототипу класу.
.

Впровадження ZSL

Важливі аспекти (навчання з нуля для класифікації тексту та зображень) класифікуються як вектори для того, щоб ZSL було ефективним. Це передбачає завчасне визначення точних векторів проекту. Після того, як вони зібрані, їм надається опис, що дозволяє алгоритмам класифікувати їх належним чином. Навчання відбувається з урахуванням цих векторів, що призводить до класифікації за окремими класами.

Незалежно від даних навчальної вибірки, фаза тестування розпізнає нові вхідні дані і призводить до нових класів.

Щоб застосувати навчання з нуля в моделі, виконайте наступні три кроки:

  • Отримати вектор категорій:

Атрибути: Призначає концепту або екземпляру теговані візуальні характеристики для опису його візуального вигляду, які можуть бути легко перетворені з видимих класів у невидимі.

Вектори слів: Його легко застосувати до різних типів даних, таких як відео, текст, аудіо та інші.

  • Поїзд

Дайте кілька знайомих векторів категорій класів V та фотографій X для тренування.

Навчіться класифікувати зображення за допомогою векторних класифікаторів або регресорів. V=F(X)

  • Тест

Тест: Для розпізнавання нового класу вкажіть вектор V.

F(X) до категорійного векторного простору NN відповідності відображення V vs F (X)

У старих роботах ZSL використовувалися ручні представлення об'єктів, створені вручну. В останні кілька років візуальне представлення ознак було замінено на ознаки, зібрані за допомогою глибоких згорткових нейронних мереж (CNN). Характеристики витягуються за допомогою моделей CNN, які вже були навчені.

Глибокі CNN також подаються в модель вбудовування як вхідні дані. Семантичний простір або проміжний простір використовується як простір вбудовування в існуючих спробах ZSL на основі DNN.

Незважаючи на успіх глибоких нейронних мереж у вивченні наскрізної моделі між текстом і зображеннями в інших питаннях зору, таких як підписи до зображень, існує відносно мало глибоких моделей ZSL. Навчання з нульового пострілу в моделях глибокого навчання, які використовують представлення об'єктів, але не вивчають наскрізні вбудовування, мають мінімальну перевагу над моделями ZSL, які використовують глибоке представлення об'єктів, але не вивчають наскрізні вбудовування.