VGGNet
Оновлено: 31.07.2023
Що таке VGGNet?
Його метод розпізнавання об'єктів, розроблений і навчений відомою оксфордською групою VGG (Visual Geometry Group), з великим відривом перевершив набір даних ImageNet.
Вона відома не тільки тому, що ефективно працює, але й тому, що оксфордська команда зробила структуру та вагові коефіцієнти навченої мережі загальнодоступними в Інтернеті.
- VGG-19 - 19-шарова глибока згорткова нейронна мережа.
На ILSVRC 2014 архітектура нейронної мережі VGG посіла перше місце в задачі локалізації зображень і друге місце в задачі класифікації зображень.
Визначення місцезнаходження певного об'єкта на зображенні, визначеного обмежувальною рамкою, називається локалізацією. Термін "класифікація" стосується процесу опису того, чим є об'єкт на зображенні. Це означає наявність мітки категорії, наприклад, "собака" або "транспортний засіб".
ImageNet
.Для науковців ImageNet - це величезна база даних зображень. Люди, які керують ImageNet, щороку проводять конкурс з розпізнавання зображень. Його мета - створити програмне забезпечення, зазвичай нейронну мережу, яка може правильно передбачити категорію для колекції тестових фотографій. Звісно, лише організатори конкурсу знають, до якої саме категорії вони належать.
Зображення на конкурсі відсортовані на 1000 окремих категорій. Нейромережа генерує розподіл ймовірностей для кожного тестового зображення. Це означає, що вона обчислює ймовірність для кожної з 1000 категорій (число від 0 до 1), а потім вибирає категорію з найвищою ймовірністю.
Найкращий вибір нейромережі має високу ймовірність, якщо вона дуже впевнена в прогнозі.
У завданні класифікації ImageNet у вас є п'ять шансів оцінити правильну категорію, саме тому демо-додаток показує п'ять найкращих можливостей мережі.
Архітектура VGG
- Вхідні дані Нейромережа VGG приймає на вхід RGB-зображення розміром 224×224 пікселів. Щоб зберегти розмір вхідного зображення для конкурсу ImageNet, автори вирізали середню ділянку 224×224 у кожному зображенні.
- Згорткові шари мають рецептивне поле 3×3, що є найменшим досяжним розміром, але при цьому захоплюють лівий/правий та верхній/нижній полюси. Існують додаткові фільтри згортки, які виконують лінійну зміну вхідного сигналу перед проходженням через блок ReLU. Крок встановлюється в 1 піксель, щоб зберегти просторову роздільну здатність після згортки.
- Приховані шари VGG всі використовують ReLU, винахід AlexNet, який значно скорочує час навчання. Локальна нормалізація відгуку (LRN) не використовується у VGG, оскільки вона збільшує використання пам'яті та час навчання без покращення точності.
- VGG містить три повністю пов'язані шари, перші два з яких мають по 4096 каналів, а третій - 1000 каналів, по одному для кожного класу.
З іншого боку, AlexNet складається з восьми шарів, включаючи п'ять згорткових шарів, три повністю з'єднані рівні та три шари, що слідують за 1-м, 2-м та 5-м згортковими шарами. Перший згортковий шар складається з 96 фільтрів розміром 11 x 11 з кроком 4 пікселі та проміжком 2 пікселі. Крок і проміжок для інших згорткових шарів встановлено на рівні 1 пікселя.
VGG 16 має 16 шарів, 13 згорткових шарів і повністю зв'язані шари, що робить його набагато складнішим. VGG -16 і AlexNet мають однакові налаштування повністю зв'язаних шарів. 1 піксель є кроком і прокладкою для обох згорткових шарів. Кожен шар розділено на 5 груп.
Переваги VGG
- VGG використовує дуже малі рецептивні поля замість масивних полів, як AlexNet. Тому він використовує 3×3 з кроком 1. Функція прийняття рішення є більш дискримінаційною, оскільки є три блоки ReLU замість одного. Також є менше параметрів (у 27 разів більше каналів проти 49 в AlexNet).
- Без зміни рецептивних полів VGG використовує шари згортки 1×1, щоб зробити функцію прийняття рішення більш нелінійною.
- Модель VGG може мати значну кількість вагових шарів через малий розмір фільтрів згортки; звичайно, більше шарів означає кращу продуктивність. Однак це не є незвичайною особливістю.
Архітектура VGG - це архітектура згорткових нейронних мереж, яка існує вже досить давно. Вона була розроблена в результаті досліджень того, як зробити певні мережі більш щільними. Мережа використовує крихітні фільтри 3 x 3. Крім того, мережа виділяється своєю простотою, з простим об'єднанням шарів і повністю пов'язаним шаром в якості додаткових компонентів. Модель глибокого навчання мережі VGG є однією з найпоширеніших моделей розпізнавання зображень на сьогоднішній день.