Ground Truth
Оновлено: 31.07.2023
У контексті машинного навчання істинні дані - це об'єктивний світ, який ви намагаєтеся змоделювати за допомогою системи керованого навчання. Мета навчання або перевірки моделі з використанням маркованого набору даних також називається базовою істиною. Модель класифікації передбачає мітку під час виведення, і це передбачення може бути перевірено на основі базової істини.
- Конструювання базових даних часто вимагає значних зусиль, таких як побудова моделі, маркування даних, розробка класифікатора та навчання/тестування.
Більшість міток базової істини для даних створюються фізично командою анотаторів, які потім порівнюються за допомогою різних методологій, щоб визначити цільові мітки набору даних. Збільшення різноманітності даних дозволяє алгоритмам ML і DL виявляти більш точні закономірності, надаючи більші набори анотованих даних.
Важливість базової істини
В алгоритмах керованого навчання для навчання нових алгоритмів потрібні базові дані. Чим більша кількість і якість доступних анотованих даних, тим ефективнішими будуть алгоритми.
Часто для надання достовірних міток потрібно залучати експертів або анотаторів. Це дорогий і трудомісткий процес, особливо якщо набір даних складається з сотень і тисяч записів. Через складність складання великих наборів даних з базовими мітками, кілька дослідників створили високоякісний набір даних, який може слугувати еталоном або першим полігоном для тестування нових алгоритмів.
Створення набору даних "Правдивої землі"
Це загальна процедура для побудови великого набору даних з мітками на місцевості:
- На початковому етапі нового проекту необхідно визначити потреби алгоритмів, які будуть навчатися на даних. Ви повинні вказати обсяг необхідних даних, тип і стиль даних, а також ступінь варіабельності популяції, що моделюється, від реального світу. Набір даних повинен враховувати всі відповідні граничні ситуації.
- Зробіть пілотний проект, щоб зібрати невелику кількість вибіркових даних; це стандартна процедура для більшості ініціатив щодо набору даних. На цьому етапі метою є визначення перешкод у зборі даних, а також часу і навичок, необхідних для збору та анотування даних, і формування відповідної команди проекту.
- Також враховуйте конфіденційність даних і дотримання законодавства. Перед початком проекту компанія повинна проконсультуватися зі своїм юридичним відділом або відділом комплаєнсу, щоб з'ясувати, які правові наслідки матиме збір даних. Існує кілька обмежень щодо збору інформації, яка може бути використана для ідентифікації реальних осіб у поточному правовому контексті.
- На основі пілотного проекту в дослідженні розробляється повномасштабний проект, включаючи джерела даних, кількість учасників збору даних та методи оцінки та забезпечення якості даних. У деяких випадках для зменшення зусиль з анотування можуть використовуватися автоматизовані методи або поточні джерела даних.
- Анотування відбувається наступним чином. Команда залучає спостерігачів, які можуть бути власними працівниками, підрядниками або краудсорсерами, для вивчення та анотування зразків даних відповідно до параметрів проекту.
- Після того, як набори даних будуть завершені, команда перевіряє точність анотацій та будь-які упередження, до яких можуть бути схильні набори даних. Модель буде працювати настільки добре, наскільки хороші її дані для навчання, тому цей етап є важливим для забезпечення адекватної роботи моделі.
Визначення мети
Для того, щоб алгоритм машинного навчання був ефективним, людина повинна чітко сформулювати проблему, яку він має вирішити. Мета машинного навчання завжди суб'єктивна. Іноді існують розбіжності між особами, які приймають рішення, при виборі мети, оскільки, як правило, не існує універсальних керівних принципів для визначення мети.
Набір даних фільтрується для відбору наборів ознак, що складаються з усіх якостей, які можуть вплинути на мету або цільову мітку. Жодна з цих якостей не повинна призводити до втрати даних. Витік даних відбувається, коли модель виявляє зв'язок між своєю метою і даними, які інакше не були б доступні під час виведення. Витік даних призводить до того, що модель працює дуже добре на навчальних і перевірочних даних, але повністю провалюється на наступних тестових даних.