Triplet Loss
Оновлено: 31.07.2023
Що таке триплетні втрати?
Функція потрійних втрат порівнює базовий вхід з позитивним і негативним входом в алгоритмах машинного навчання. Відстань між базовим входом і позитивним входом зменшується до мінімуму, тоді як відстань між базовим входом і негативним входом збільшується.
Моделі потрійних втрат вбудовуються таким чином, що пара зразків з однаковими мітками знаходиться ближче, ніж зразки з різними мітками, завдяки впорядкуванню відстаней.
Як наслідок, він вимагає обробки з м'якою маржею зі змінною альфа-змінною стилю відображення в його найпоширенішій формулюванні в стилі втрати петлі. Вбудовування слів, вектори мислення та метричне навчання є прикладами того, як його використовують для навчання подібності для вбудовування слів.
Візьмемо, наприклад, завдання навчити триплетні нейронні мережі розпізнавати обличчя. Замість того, щоб описувати проблему як проблему класифікації, її можна поставити як метод навчання, заснований на завданнях схожості. Мережа пройшла всебічне навчання, щоб створити відстань, яка є малою, коли зображення належить відомій фігурі, і великою, коли зображення належить невідомій особі. Якщо ми хочемо отримати дані, нам потрібно буде вивчити рейтинг, а не просто схожість, щоб вибрати найбільш схожі зображення з певним зображенням. У цьому сценарії використовується потрійна втрата.
Для пояснення втрат можна використати евклідову функцію відстані. Ця функція працює з триплетами, як показано в наступних трьох прикладах з набору даних:
xai - приклад якоря Фотографія обличчя людини - один із прикладів.
xpi - позитивний приклад з такою самою ідентифікацією, як і в прикладі-якорі. Це друга фотографія тієї самої особи, що і в прикладі з прив'язкою.
xni - негативне зображення несхожого об'єкта. Це буде зображення особи, яка значно відрізняється від тієї, що представлена в якорі та позитивних прикладах.
- Функція потрійних втрат використовується для навчання моделі генерувати вставки, які знаходяться ближче до якоря для додатного випадку, ніж для від'ємного
Триплетні втрати проти контрастних втрат
Сучасний комп'ютерний зір спирається на моделі, які перетворюють зображення на багаті, семантичні репрезентації, з широким спектром застосувань - від навчання з нуля і візуального пошуку до розпізнавання облич і дрібнозернистого пошуку. Найуспішнішими моделями вбудовування є глибокі мережі, які навчені враховувати парні зв'язки.
Навчання глибокого вбудовування базується на простому принципі зближення порівнянних зображень у просторі вбудовування та розсунення несхожих зображень. Наприклад, втрата контрастності призводить до того, що всі позитивні зображення розташовуються поруч, а негативи - на певній відстані один від одного.
З іншого боку, використання однакової відстані для всіх зображень може бути обмежувальним, запобігаючи будь-яким спотворенням у просторі вбудовування. Це призводить до втрати потрійних зображень, що вимагає розміщення негативних зображень на більшій відстані від позитивних.
У звичайних задачах вбудовування потрійні втрати є одними з найефективніших втрат. Потрійна втрата, на відміну від парних втрат, не просто змінює функцію, вона також змінює спосіб вибору позитивних і негативних прикладів.
Дві основні відмінності пояснюють, чому потрійні втрати перевищують контрастні втрати загалом: Потрійні втрати не використовують поріг для розрізнення схожих і несхожих зображень. Замість цього вони можуть спотворювати простір, щоб пристосуватись до викидів і пристосуватись до різних ступенів внутрішньокласової дисперсії для різних класів.
По-друге, потрійна втрата просто вимагає, щоб позитивні приклади були ближче, ніж негативні, тоді як контрастна втрата зосереджується на тому, щоб зібрати якомога більше позитивних прикладів, наскільки це можливо. Останнє не є обов'язковим. Для більшості застосувань, таких як пошук зображень, групування та верифікація, достатньо зберегти правильний відносний зв'язок.
Хоча контрастні втрати дають набагато гірші результати при випадковій дискретизації, ніж триплетні втрати, їхня ефективність значно покращується при використанні процесу дискретизації, порівнянного з триплетними втратами. Ця інформація спростовує поширену хибну думку про відмінності між втратою триплетів і контрастними втратами.
- Ефективність реалізації потрійних втрат залежить не лише від самої функції, а й від процедур вибірки, які з нею пов'язані.
Відстеження об'єктів є життєво важливим і складним завданням у багатьох програмах комп'ютерного зору. В результаті цієї проблеми все більше вчених зосереджуються на використанні глибокого навчання для отримання більш потужних функцій для підвищення точності відстеження. Розпізнавання облич, пошук зображень і повторна ідентифікація людини - це лише деякі з застосувань втрати триплетів у комп'ютерному зорі.