Transformer Neural Network

Оновлено: 31.07.2023

Для обробки даних, таких як текст або сигнали, трансформатор використовується в багатьох топологіях нейронних мереж. Найчастіше нейромережеві трансформатори використовуються в обробці мови.

Наприклад, цей тип нейронної мережі приймає рядок векторів як вхідне речення і змінює його на вектор, який називається кодуванням.

Механізм трансформатора є важливим компонентом. В результаті роботи механізму уваги на кодування токену впливає важливість інших токенів на вході.

Для того, щоб вибрати, як перекласти слово, трансформатор використовує механізм концентрації уваги на певних словах по обидва боки від слова, що перекладається.

  • Раніше використовувані нейромережеві конструкції, такі як RNN, LSTM і GRU, були замінені трансформаторними нейронними мережами у глибокому навчанні.
.

Модель нейронної мережі-трансформатора

  • Модель трансформатора в машинному навчанні перетворює речення на два рядки: векторні вставки та позиційні кодування.
.

Текст представляється чисельно за допомогою векторів слів, які є числовими представленнями. Для того, щоб нейромережа могла обробляти слова, їх потрібно перетворити у вбудовуване представлення. Слова подаються у вигляді векторів. У позиційних кодуваннях позиція слова подається як вектор.

Після додавання вбудовування слів і кодування, продукт надсилається через лінії кодерів, а потім через лінії декодерів. Оскільки повний вхідний сигнал подається в мережу одночасно, він відрізняється від RNN і LSTM, які подають повний вхідний сигнал послідовно.

Існують кодування, які створюються кожним кодувальником, беручи вхідні дані і перетворюючи їх на іншу серію векторів. При декодуванні цей процес відбувається у зворотному напрямку. При декодуванні закодовані слова перетворюються назад у ймовірності різних вихідних слів. Використовуючи функцію softmax, вихідні ймовірності можуть бути перетворені в інше речення природною мовою.

Кожен кодер і декодер має вбудовану техніку уваги, яка дозволяє обробляти одне вхідне слово так, щоб включити відповідні дані з певних інших слів, приховуючи слова, які не належать до них.

Тепер, коли ми пояснили трансформаторну модель, давайте подивимося, як вона працює проти RNN та LSTM.

TNN vs RNN

  • Трансформатори та РНН принципово відрізняються за конструкцією

У довгостроковій перспективі RNN зберігає прихований вектор стану. Кожне вхідне слово проходить через шари нейронної мережі і змінює вектор стану. Якщо вектор стану в якийсь момент запам'ятає входи з далекого минулого, він потенційно може це зробити.

Зазвичай, прихований стан моделі не містить багато інформації про початкові вхідні дані. Нові вхідні дані можуть легко перезаписати існуючий стан, що призведе до втрати інформації. Іншими словами, продуктивність ШНМ погіршується зі збільшенням довжини фрази. Це серйозна проблема, відома як проблема довготривалої надійності.

З ШНМ важко використовувати обчислення на кшталт графічних процесорів, оскільки вони обробляють вхідні послідовності послідовно. Обробляючи вхідні слова одночасно на графічному процесорі, методи паралельної обробки Transformer дозволяють пришвидшити навчання.

TNN vs LSTM

Цей тип ШНМ був особливо успішним у вирішенні цілої низки завдань, включаючи класифікацію текстів і розпізнавання мови серед інших.

Стан комірки лежить в основі архітектури LSTM. LSTM підтримує цей прихований стан протягом усього часу, коли отримує вхідні маркери. Завдяки своїй рекурентній природі, LSTM отримує вхідні дані по одному за раз.

  • Хоча в LSTM використовується дизайн RNN, можливість змінювати інформацію в прихованому стані комірки жорстко контролюється за допомогою структур, які називаються "гейтами".
.

Стандартні конструкції LSTM включають три вентилі: "вхідний" або "вхідний вентиль", "вихідний" і "вентиль забування", відповідно.

Частково проблема довготривалої залежності вирішується завдяки складній конструкції LSTM із затвором. Однак для навчання та виконання LSTM необхідна послідовність. Механізм уваги трансформатора не потрібен, оскільки залежності можуть змінюватись від одного напрямку до іншого. Рекурентна природа LSTM також ускладнює використання паралельних обчислень, що призводить до надзвичайно повільного часу навчання.

  • Трансформаторні мережі мають перевагу над LSTM і RNN в тому, що вони можуть обробляти багато слів одночасно.
.

Численні дослідження покращили продуктивність LSTM, додавши механізми уваги ще до того, як була розроблена архітектура трансформатора. Щоб підвищити точність, дослідники виявили, що рекурентна нейронна мережа більше не є необхідною, і що замість неї можна використовувати простий механізм уваги. Таким чином, трансформатор може бути спроектований паралельно, що дозволяє навчатися на графічних процесорах.