Datasets and Machine Learning
Оновлено: 31.07.2023
Дані є життєво важливим компонентом кожної моделі ШІ і, по суті, першоосновою для нинішнього зростання визнання ML. Завдяки доступу до даних масштабовані алгоритми машинного навчання стали життєздатними як справжні рішення, які можуть додати цінності бізнесу, а не бути побічним продуктом його основної діяльності.
Ваша компанія завжди покладалася на дані. Такі міркування, як те, що купив споживач, привабливість товару та часовий потік бізнесу, вже давно відіграють важливу роль у рішеннях компанії. Однак із впровадженням наборів даних машинного навчання з'явилася необхідність їх впорядкувати.
Машинне навчання часто використовується з двома типами даних: навчальними та тестовими.
Перший і найбільший набір, який ви використовуєте, - це навчальний набір. Пропускаючи нейронну мережу через навчальний набір, ви вчите її зважувати різні ознаки, змінюючи їхні коефіцієнти відповідно до їхньої схильності до зменшення кількості помилок у ваших результатах.
Ці параметри будуть закодовані в тензорах, і вони в сукупності називаються моделлю, оскільки вони передають модель даних, на яких вони навчаються. Ви дізнаєтесь про ці речі найбільше, навчаючи нейронну мережу, тому що вони є найбільш важливими.
Ваш тестовий набір - це другий набір. Він слугує для перевірки, і ви не використовуєте його до самого кінця. Після того, як ваші дані навчені та налаштовані, ви тестуєте нейронну мережу на цій останній випадковій вибірці. Результати повинні підтвердити, що ваша мережа правильно виявляє фотографії або розпізнає принаймні x% з них.
Якщо ви не отримали точних результатів, поверніться до навчальної вибірки і перевірте гіперпараметри мережі, калібр даних і ваші процедури попередньої обробки.
Створення набору даних
Сирі дані - це чудовий початок, але ви не можете просто вкинути їх в алгоритм машинного навчання і сподіватися на значне розуміння дій ваших споживачів. Існує кілька процесів, які необхідно виконати, перш ніж ваш набір даних стане придатним для використання.
- Збір. При пошуку набору даних першим кроком є визначення джерел, з яких ви будете отримувати дані. Зазвичай є три типи джерел: загальнодоступні набори даних з відкритим вихідним кодом для машинного навчання, Інтернет та виробники штучних даних. Кожне з цих джерел має свої переваги та недоліки і має використовуватися лише в певних ситуаціях.
- Передпроцес. Кожен кваліфікований фахівець дотримується певного принципу в науці про дані. Почніть з відповіді на наступне питання: чи були дані, які ви використовуєте, вже використані? Якщо ні, вважайте, що цей набір даних несправний. Якщо відповідь "так", існує велика ймовірність того, що вам доведеться змінити налаштування для досягнення ваших цілей.
- Занотуйте. Переконавшись, що ваші дані є чистими і корисними, ви повинні переконатися, що вони зрозумілі для обробки комп'ютером. Машини не можуть розуміти дані так само, як люди; вони не здатні надавати зображенням або словам того ж значення, що і ми. Багато організацій вирішують віддати цей етап на аутсорсинг, оскільки утримувати в штаті кваліфікованого фахівця з анотацій не завжди можливо
Джерела для набору даних
Джерела для збору набору даних можуть бути різними і сильно залежать від ваших завдань, грошей і розміру бізнесу. Найкраще рішення - збирати дані, які безпосередньо пов'язані з цілями вашої компанії. Однак, хоча цей метод дає вам найбільший контроль над зібраними даними, він може бути складним і трудомістким з точки зору фінансів, часу і людських ресурсів.
Інші підходи, такі як автоматично створені набори даних для неконтрольованого навчання, потребують значних обчислювальних потужностей і підходять не для всіх проектів. Існують величезні колекції загальнодоступних наборів даних для машинного навчання, які можна відкрито завантажити і використовувати для навчання вашої системи машинного навчання.
Очевидною перевагою безкоштовних наборів даних для машинного навчання є те, що вони безкоштовні. Однак, оскільки ці завантажувані навчальні набори даних для машинного навчання були створені для різних цілей і не будуть точно відповідати вашій моделі машинного навчання, вам, швидше за все, доведеться підлаштовувати їх під свій проект. Тим не менш, оскільки для збору якісного набору даних потрібно менше ресурсів, це популярна альтернатива для багатьох стартапів, а також малих і середніх організацій.
Прикінцеві нотатки
Може здатися, що збір даних для вашого ШІ-проекту - це проста операція, яку можна виконати у фоновому режимі, зосередивши основну увагу та ресурси на створенні ML-моделі. Однак, як показує досвід, робота з даними може зайняти більшу частину вашого часу через великий обсяг роботи. Тому дуже важливо розуміти, що таке набір даних в ML, як їх збирати та які характеристики має якісний набір даних.