Model Tuning

Оновлено: 31.07.2023

Гіперпараметри - це зовнішні елементи керування, які впливають на роботу моделі, подібно до того, як пілотажні прилади впливають на політ літака. Цими параметрами керує користувач і вони не є частиною моделі. Вони можуть впливати на те, як навчається алгоритм, а також на кінцеву структуру моделі.

Хоча попередній досвід роботи з моделлю та даними може допомогти, визначити оптимальні параметри емпіричним шляхом досить складно. Пошук ідеальних гіперпараметрів вручну зайняв би багато часу і вимагав би значних обчислювальних ресурсів. Саме тому для отримання найкращих налаштувань виконується автоматизоване налаштування гіперпараметрів.

Оптимізація гіперпараметрів - це ще один термін для налаштування моделі. Процес навчання контролюється гіперпараметрами, які є змінними. Під час навчання моделі це змінні конфігурації, які не змінюються. Налаштування моделі дає ідеальні налаштування гіперпараметрів, підвищуючи точність прогнозування вашої моделі.

Кожна модель має власний набір гіперпараметрів, деякі з яких є унікальними для неї, а інші - спільними для групи алгоритмів. Максимальні вузли листків є гіперпараметрами в XG boost, тоді як кілька шарів і прихована ширина є гіперпараметрами в нейронних мережах.

Налаштовуючи гіперпараметри, щоб перевірити, чи покращується модель, пам'ятайте про наступне:

  • Які гіперпараметри мають найбільший вплив на вашу модель?
  • Які значення слід вибрати?
  • Скільки комбінацій гіперпараметрів слід спробувати?

Практики налаштування

Налаштування гіперпараметрів, також відоме як оптимізація, може бути трудомістким процесом. Найкращі практики можуть бути використані для контролю потреб у ресурсах і підвищення оптимізації.

  • Існує певна кількість гіперпараметрів. Хоча SageMaker дозволяє здійснювати пошук лише за 20 гіперпараметрами, рекомендується шукати за більшою кількістю. Це пов'язано з тим, що кількість гіперпараметрів у просторі пошуку збільшує обчислювальну складність.
  • Діапазони гіперпараметрів Обмеження діапазону гіперпараметрів для пошуку дасть кращі результати. Саме тут можуть стати в нагоді знання про попередню оптимізацію з певним типом даних і методів. Розмір простору пошуку контролюється обмеженням діапазону.
  • Для гіперпараметрів використовуються логарифмічні шкали. Спочатку буде припущено, що змінна є лінійно скоригованою, і буде оброблено результати у логарифмічному масштабі лише після того, як буде встановлено, що змінна є логарифмічною. Щоб пришвидшити обробку, перетворіть дані з логарифмічним масштабуванням у змінні з лінійним масштабуванням.
  • Запуск великої кількості навчальних завдань одночасно прискорить процес оптимізації, але послідовна обробка дасть кращі результати. Це пов'язано з тим, що кожне виконане тренувальне завдання дає знання, які можуть бути використані для покращення наступного тренувального завдання. Існує набагато менше можливостей поділитися цією інформацією з наступним роботодавцем при паралельному виконанні навчальних завдань. Як наслідок, паралельність - це компроміс між швидкістю та якістю.
  • Використовується декілька екземплярів. При виконанні навчальних завдань на декількох екземплярах виникають такі ж проблеми зі зв'язком, як і при паралельному виконанні завдань. Ви повинні переконатися, що належна метрика мети передається і реалізується.
  • Використовується байєсівський пошук для пошуку того, що ви шукаєте. Байєсівський пошук є ефективнішим, дешевшим і швидшим методом налаштування гіперпараметрів. Випадковий пошук часто вимагає в 10 разів більше робіт, ніж байєсівський пошук.
.

Зовнішні елементи керування, які називаються гіперпараметрами, використовуються для регулювання того, як модель навчається і працює. З іншого боку, гіперпараметри можна регулювати вручну та оптимізувати методом проб і помилок.