Pooling Layers in CNN

Оновлено: 31.07.2023

Що таке шари об'єднання в CNN?

У згорткових нейронних мережах (CNN) вихідні карти ознак із згорткових шарів обробляються за допомогою об'єднання шарів.

  • Основна мета об'єднання - зберегти найбільш релевантну інформацію, зменшивши при цьому просторовий розмір вхідних даних.
.

Це дозволяє уникнути надмірного налаштування та знизити обчислювальні та параметричні вимоги до мережі.

Розмір вікна об'єднання, крок і проміжок - це приклади гіперпараметрів, які не піддаються навчанню в шарах об'єднання. Гіперпараметри, які ви виберете, будуть унікальними для вашої програми та мережевих налаштувань.

Загалом, об'єднання в згортковій нейронній мережі має вирішальне значення, оскільки воно зменшує вхідний простір, зберігаючи при цьому релевантну інформацію. Це потенційно може підвищити продуктивність мережі, зменшуючи при цьому обчислювальні витрати.

Типи шарів об'єднання в CNN

Згорткові нейронні мережі (CNN) використовують кілька шарів об'єднання, таких як:

  • Максимальне об'єднання - це найпопулярніший шар об'єднання, оскільки він використовує області об'єднання вхідних даних карти об'єктів, щоб отримати найвищі значення в цілому. За допомогою максимального об'єднання ми можемо мінімізувати кількість вхідних даних, не втрачаючи найважливіших деталей.
  • Глобальне об'єднання- За допомогою глобального об'єднання обчислюється максимальне або середнє значення по всьому просторовому виміру карти вхідних об'єктів. Глобальне об'єднання часто використовується для підготовки даних зі згорнутого шару до використання у повністю зв'язаному шарі.
  • Усереднене об'єднання- Для цієї операції використовується середнє значення з кожної області об'єднання на вхідній карті характеристик. Якщо вхідні характеристики є зашумленими, середнє об'єднання може допомогти згладити їх.
  • Стохастичне об'єднання - Цей метод випадковим чином вибирає одне значення з областей об'єднання на карті вхідних ознак. Невеликі переклади у вхідних даних можна зробити більш поблажливими за допомогою стохастичного об'єднання.
  • Lp-об'єднання- Для Lp-об'єднання використовується норма Lp кожної об'єднаної області на вхідній карті ознак. У максимальному об'єднанні часто використовується норма Lp, оскільки вона узагальнює евклідову норму. Lp-об'єднання може забезпечити додатковий простір для маневрування при зменшенні вибірки вхідної карти ознак.
.

При виборі рівня об'єднання необхідно враховувати топологію програми та мережі. Хоча Max pooling є найбільш використовуваним рівнем об'єднання, інші рівні об'єднання в CNN можуть бути більш придатними для певних завдань.

Використання шару об'єднання в CNN

У згорткових нейронних мережах (CNN) об'єднання шарів має вирішальне значення, оскільки вони роблять дві речі:

  • Зменшення розмірності

    Розмірність карт ознак, створених згортковими шарами, зменшується за рахунок об'єднання шарів. Це допомагає обмежити обчислювальні вимоги мережі та запобігти будь-якому потенціалу надмірного припасування.

  • Інваріантність перекладу

    Невеликі переклади у вхідному зображенні допускаються об'єднанням шарів завдяки введеній інваріантності. Це означає, що результат об'єднаного шару не буде сильно відрізнятися, навіть якщо той самий елемент значно переміститься на вхідному зображенні.

.

На додаток до цих основних застосувань, точність мережі можна підвищити, використовуючи об'єднання в CNN для вилучення більш складної інформації з вхідного зображення. Мережа здатна розпізнавати більш узагальнені ознаки, які менш чутливі до змін в освітленні, орієнтації або перспективі вхідного зображення завдяки зменшенню вибірки шарів об'єднання з карт ознак, створених згортковими шарами.

ШНМ значною мірою покладаються на об'єднання шарів через їхню здатність зменшувати розмірність карт ознак, робити мережу більш стійкою до крихітних перекладів і виводити більш абстрактні ознаки з вхідного зображення.

Підсумовуємо

Об'єднання шарів полегшує виявлення об'єкта на зображенні, незалежно від його розташування. Включення шарів об'єднання в модель CNN зменшує ймовірність перенавчання, підвищує ефективність і прискорює процес навчання. На відміну від максимального шару об'єднання в CNN, який виділяє найяскравіші аспекти зображення, середній шар об'єднання пом'якшує його, зберігаючи основні деталі.