Learning Rate in Machine Learning

Оновлено: 31.07.2023

Яка швидкість навчання в машинному навчанні?

У машинному навчанні ми маємо справу з двома типами параметрів: параметрами, що піддаються машинному навчанню, і гіперпараметрами.

  • Параметри, що піддаються машинному навчанню - параметри, які алгоритми вивчають/оцінюють самостійно під час навчання на конкретному наборі даних
  • Гіперпараметри - змінні, яким інженери машинного навчання або науковці з даних надають точні значення, щоб регулювати, як алгоритми навчаються та змінюють продуктивність моделі.
.

Швидкість навчання, позначена символом α, є гіперпараметром, який використовується для керування швидкістю, з якою алгоритм оновлює або вивчає значення оцінки параметра. Іншими словами, швидкість навчання регулює ваги нашої нейронної мережі щодо градієнта втрат>. Вона показує, як часто нейронна мережа оновлює вивчені поняття.

Ефект швидкості навчання

На основі прикладів у навчальному наборі даних нейронна мережа навчається або апроксимує функцію, щоб оптимально зіставити вхідні дані з вихідними.

Швидкість навчання або швидкість, з якою навчається модель, контролюється гіперпараметром. Він регулює величину розподіленої похибки, з якою ваги моделі оновлюються щоразу, коли вони оновлюються, наприклад, наприкінці кожної партії навчальних прикладів.

Модель навчиться найкраще оцінювати функцію за наявних ресурсів - кількості шарів і вузлів на шар за певну кількість епох навчання - якщо швидкість навчання ідеально відкалібрована.

Бажана швидкість навчання є достатньо низькою, щоб мережа могла прийти до чогось корисного, але водночас достатньо високою, щоб навчитись за розумний проміжок часу.

Менші темпи навчання вимагають більшої кількості навчальних періодів через меншу кількість змін. З іншого боку, більша швидкість навчання призводить до швидших змін.

Більше того, більша швидкість навчання часто призводить до неоптимального кінцевого набору ваг.

Для обчислення ваг нейронної мережі не можна використовувати аналітичний метод. Натомість, ваги повинні бути знайдені за допомогою стохастичного градієнтного спуску, емпіричного оптимізаційного підходу. Простіше кажучи, алгоритм стохастичного градієнтного спуску використовується для навчання нейронних мереж глибокого навчання.

  • Стохастичний градієнтний спуск - це метод оптимізації, який використовує екземпляри з навчального набору даних для оцінки градієнта похибки для поточного стану моделі, а потім використовує зворотне поширення для оновлення ваг моделі.
.

Таким чином, ми повинні уникати використання занадто високої або занадто низької швидкості навчання. Однак ми повинні налаштувати модель таким чином, щоб у середньому визначався достатньо пристойний набір ваг, який наближає проблему відображення, представлену навчальним набором даних.

Алгоритми та адаптивна швидкість навчання

Це дозволяє алгоритму навчання відстежувати продуктивність моделі та автоматично змінювати швидкість навчання для досягнення оптимальних результатів.

Швидкість навчання в цьому методі збільшується або зменшується залежно від значення градієнта функції витрат.

  • Швидкість навчання буде меншою, коли значення градієнта буде більшим, і більшою, коли значення градієнта буде меншим.
.

Як наслідок, навчання сповільнюється і прискорюється на більш крутих і більш пологих ділянках кривої функції витрат відповідно.

Найпростіша модель зменшує швидкість навчання, як тільки продуктивність моделі досягає плато. Модель досягає цього, зменшуючи швидкість навчання вдвічі або на порядок. Якщо продуктивність не покращується, швидкість навчання може бути знову збільшена.

  • Адаптивна швидкість навчання часто перевищує фіксованушвидкість навчання AI в нейронних мережах.

Адаптивна швидкість навчання в машинному навчанні зазвичай використовується при використанні стохастичного градієнтного спуску для побудови глибоких нейронних мереж.

Однак існують різні підходи до визначення швидкості навчання:

  • Спадна швидкість навчання - швидкість навчання падає зі збільшенням кількості епох/ітерацій у цій техніці швидкості навчання.
  • Заплановане зниження швидкості навчання - швидкість навчання знижується на задану пропорцію із заданою частотою в методі зниження швидкості навчання, на відміну від техніки спадання, де швидкість навчання знижується повторно.
  • Циклічна швидкість навчання - швидкість навчання циклічно змінюється між базовою та максимальною швидкістю в цій методиці. При постійній частоті швидкість навчання змінюється за трикутником між максимальною та базовою швидкістю.
  • Метод градієнтного спуску - це відомий оптимізаційний підхід для оцінювання параметрів моделі в машинному навчанні. Значення кожного параметра спочатку передбачається або присвоюється випадковим значенням під час навчання моделі. Функція вартості генерується з використанням початкових значень, а оцінки параметрів покращуються з часом так, щоб функція вартості зрештою набула мінімального значення.
.