Deep Belief Networks
Оновлено: 31.07.2023
Що таке Мережа глибоких переконань?
Мережа глибоких переконань (Deep Belief Network, DBN) - це тип мережі глибокого навчання, яка навчається без будь-яких зовнішніх даних для прийняття рішень.
DBN був створений Джеффрі Хінтоном та його групою у 2006 році. Щоб підвищити швидкість і продуктивність мережі, вони були розроблені як версія стандартної багатошарової перцептронної нейронної мережі шляхом вивчення багаторівневого представлення, або "характеристик", вхідних даних. ШНМ були розроблені для розуміння цих характеристик у багаторівневий спосіб, починаючи з найфундаментальніших характеристик внизу і просуваючись до найбільш абстрактних у верхній частині.
Структура ДБН
Кожен шар "прихованих" одиниць ДБН використовує вихідні дані попереднього шару як вхідні. Вхідний і вихідний шари мережі є першим і останнім відповідно. Приховані шари знаходяться між ними.
Вхідний шар з'єднується з першим прихованим шаром, який має кілька обмежених машин Больцмана (RBM). Нейронні мережі RBM можуть інтерпретувати розподіли вхідних можливостей. Некеровані ШНМ виділяють особливості вхідних даних найвищого рівня.
Кожен наступний прихований шар з'єднується з шаром RBM, що знаходиться над ним, і навчається без нагляду для вилучення ознак вищого рівня. Останній прихований шар з'єднується з вихідним шаром, звичайним шаром нейронної мережі для класифікації та інших керованих завдань.
Конструкції за ДБН мають певні відмінні риси:
- Некеровані шари RBM та DBN потребують вхідних даних без тегів на виході.
- Навчання починається з базових шарів і переходить до вищих рівнів абстракції.
- Вихід кожного шару під час навчання надсилається наступному шару.
ШНМ використовують ієрархічну техніку для вивчення ознак нижчого рівня та ознак вищого рівня, що призводить до створення мережі, яка може створювати більш креативне та складне представлення вхідних даних.
Як працює ДБН?
Основний процес підготовки ДБН включає в себе:
- Початок: Ваги мережі спочатку встановлюються випадковим чином.
- Навчання: На етапі попереднього навчання вхідні дані мережі проходять через її найнижчий рівень, який зазвичай складається з обмежених машин Больцмана (RBM). У неконтрольованому середовищі кожна RBM навчається витягувати високорівневі характеристики з вхідних даних. Цей процес продовжується до тих пір, поки не буде досягнутий верхній рівень мережі, який містить найскладніші характеристики.
- Налаштування: Для точного налаштування ШНМ ми використовуємо марковані вихідні дані для внесення коригувань. На цьому етапі для точного налаштування ваг мережі часто використовують техніку керованого навчання, наприклад, поширення. На цьому етапі мережу налаштовують так, щоб вона оптимально розв'язувала задачу, для якої була розроблена.
- Висновок: Після навчання мережа може бути використана для виведення висновків. На неї подаються вхідні дані, а виходи з останнього шару використовуються для побудови висновків або класифікацій.
Контрольовані чи неконтрольовані, ШНМ вже не так поширені, як раніше. Згорткові нейронні мережі (ЗНМ) та рекурентні нейронні мережі (РНМ) - це дві альтернативи, які набули популярності і перевершують традиційні нейронні мережі в певних завданнях.
Конволюційні мережі глибоких переконань
Згорткова мережа глибокого поширення (CDBN) - це тип ШНМ, який включає в свою архітектуру згорткові шари. Ці шари аналізують візуальні дані, скануючи зображення за допомогою набору навчальних фільтрів, які називаються ядрами, і використовують згорнутий результат як вхідні дані для наступного шару. Це допомагає мережі ефективніше навчатися та видобувати візуальну інформацію.
- CDBN - це ДБН зі згорнутими шарами.
Перший рівень стеку RBM CDBN пов'язаний з вхідними даними.
Потім CDBN додає згорткові шари між шарами RBM. Марковані вихідні дані навчають ці згорточні шари витягувати ознаки з вхідних даних. Наступний шар RBM абстрагує ознаки від згорткових шарів.
Класифікація та інші контрольовані завдання можуть виконуватися на повністю зв'язаному кінцевому шарі CDBN. На відміну від типових CNN, CDBN використовує RBM для вилучення ознак перед точним налаштуванням мережі за допомогою контрольованих даних.
Ідентифікація зображень, виявлення об'єктів і обробка природної мови використовують CDBN. Вони ефективні в додатках для ідентифікації зображень з великими варіаціями та повторюваними характеристиками.