Model Tuning
Оновлено: 31.07.2023
Гіперпараметри - це зовнішні елементи керування, які впливають на роботу моделі, подібно до того, як пілотажні прилади впливають на політ літака. Цими параметрами керує користувач і вони не є частиною моделі. Вони можуть впливати на те, як навчається алгоритм, а також на кінцеву структуру моделі.
Хоча попередній досвід роботи з моделлю та даними може допомогти, визначити оптимальні параметри емпіричним шляхом досить складно. Пошук ідеальних гіперпараметрів вручну зайняв би багато часу і вимагав би значних обчислювальних ресурсів. Саме тому для отримання найкращих налаштувань виконується автоматизоване налаштування гіперпараметрів.
Оптимізація гіперпараметрів - це ще один термін для налаштування моделі. Процес навчання контролюється гіперпараметрами, які є змінними. Під час навчання моделі це змінні конфігурації, які не змінюються. Налаштування моделі дає ідеальні налаштування гіперпараметрів, підвищуючи точність прогнозування вашої моделі.
Кожна модель має власний набір гіперпараметрів, деякі з яких є унікальними для неї, а інші - спільними для групи алгоритмів. Максимальні вузли листків є гіперпараметрами в XG boost, тоді як кілька шарів і прихована ширина є гіперпараметрами в нейронних мережах.
Налаштовуючи гіперпараметри, щоб перевірити, чи покращується модель, пам'ятайте про наступне:
- Які гіперпараметри мають найбільший вплив на вашу модель?
- Які значення слід вибрати?
- Скільки комбінацій гіперпараметрів слід спробувати?
Практики налаштування
Налаштування гіперпараметрів, також відоме як оптимізація, може бути трудомістким процесом. Найкращі практики можуть бути використані для контролю потреб у ресурсах і підвищення оптимізації.
- Існує певна кількість гіперпараметрів. Хоча SageMaker дозволяє здійснювати пошук лише за 20 гіперпараметрами, рекомендується шукати за більшою кількістю. Це пов'язано з тим, що кількість гіперпараметрів у просторі пошуку збільшує обчислювальну складність.
- Діапазони гіперпараметрів Обмеження діапазону гіперпараметрів для пошуку дасть кращі результати. Саме тут можуть стати в нагоді знання про попередню оптимізацію з певним типом даних і методів. Розмір простору пошуку контролюється обмеженням діапазону.
- Для гіперпараметрів використовуються логарифмічні шкали. Спочатку буде припущено, що змінна є лінійно скоригованою, і буде оброблено результати у логарифмічному масштабі лише після того, як буде встановлено, що змінна є логарифмічною. Щоб пришвидшити обробку, перетворіть дані з логарифмічним масштабуванням у змінні з лінійним масштабуванням.
- Запуск великої кількості навчальних завдань одночасно прискорить процес оптимізації, але послідовна обробка дасть кращі результати. Це пов'язано з тим, що кожне виконане тренувальне завдання дає знання, які можуть бути використані для покращення наступного тренувального завдання. Існує набагато менше можливостей поділитися цією інформацією з наступним роботодавцем при паралельному виконанні навчальних завдань. Як наслідок, паралельність - це компроміс між швидкістю та якістю.
- Використовується декілька екземплярів. При виконанні навчальних завдань на декількох екземплярах виникають такі ж проблеми зі зв'язком, як і при паралельному виконанні завдань. Ви повинні переконатися, що належна метрика мети передається і реалізується.
- Використовується байєсівський пошук для пошуку того, що ви шукаєте. Байєсівський пошук є ефективнішим, дешевшим і швидшим методом налаштування гіперпараметрів. Випадковий пошук часто вимагає в 10 разів більше робіт, ніж байєсівський пошук.
Зовнішні елементи керування, які називаються гіперпараметрами, використовуються для регулювання того, як модель навчається і працює. З іншого боку, гіперпараметри можна регулювати вручну та оптимізувати методом проб і помилок.