Data-Centric AI

Оновлено: 31.07.2023

Що таке ШІ, орієнтований на дані?

Розглянемо програму ШІ, орієнтовану на дані - це програмування з акцентом на даних, а не на коді. Рішення зі штучного інтелекту впроваджуються в усіх галузях, і хоча технології ШІ вдосконалюються, для повного розкриття потенціалу ШІ потрібні фундаментальні зміни.

Компанії з різних галузей, таких як електронна та автомобільна промисловість, відчули переваги впровадження рішень на основі штучного інтелекту та глибокого вивчення даних у виробничих ситуаціях порівняно з традиційними впровадженнями, заснованими на правилах, завдяки застосуванню підходу, орієнтованого на дані.

Обмеження даних

  • Різниця в маркуванні-Системи ШІ навчають виявляти дефекти продукції в таких галузях, як виробництво та фармацевтика. Однак раціональні, добре навчені люди можуть сперечатися, наприклад, про те, чи є таблетка "сколотою" або "подряпаною", і ця неоднозначність може призвести до того, що система штучного інтелекту буде розгублена. Так само кожна лікарня організовує цифрові записи в унікальний спосіб. Це викликає занепокоєння, оскільки системи штучного інтелекту найкраще працюють, коли їх навчають на послідовних даних.
  • У центрі уваги - великі дані- Поширеною помилкою є те, що більше даних завжди буде кращим. Однак для деяких застосувань, таких як охорона здоров'я, немає необхідності збирати так багато даних, і може бути достатньо меншої кількості високоякісних даних. Наприклад, якщо небагато пацієнтів мають певну медичну проблему, то і записів про неї може бути небагато.
  • Кураторство даних на льоту- Дані часто бувають недбалими і пронизаними помилками. Люди десятиліттями шукають проблеми і вирішують їх самостійно. Часто саме винахідливість та досвід людини або відсутність конкретного інженера вирішують, чи все зроблено правильно.
  • Залежність від розробника- Команди покладаються на розробника, щоб покращити продуктивність та надати моделі ШІ. Наприклад, розробники повинні співпрацювати з експертами для точного визначення помилок. Підтримка моделей і пристосування до мінливих ситуацій, включаючи нові деталі або зміни в навколишньому середовищі, викликає проблеми з розгортанням і затримки. За багатьох обставин розробка та розгортання моделі ШІ може зайняти кілька місяців.
.

Орієнтовані на дані та моделі

При модельно-орієнтованому методі розробки зазвичай існує думка, що набір даних - це щось, що знаходиться поза межами реального процесу розробки штучного інтелекту. Фахівці з даних розглядають навчальні дані насамперед як набір тегів, і їхня модель ML розробляється відповідно до цих даних. Цей метод розглядає навчальні дані як екзогенні по відношенню до процесу розробки ШІ.

Різкий перехід до методу, орієнтованого на дані, є не стільки технічним, скільки зміною фокусу спільноти та культури машинного навчання, тобто тепер ви витрачаєте час на маркування та ефективне управління даними, а сама модель є порівняно більш фіксованою.

  • Це не вибір між методами, орієнтованими на дані та на моделі. Для успіху ШІ потрібні як добре продумані моделі, так і адекватні дані.
.

Переваги орієнтованості на дані

Метод, орієнтований на дані, передбачає створення систем штучного інтелекту з використанням високоякісних даних, з метою забезпечення того, щоб дані чітко виражали те, чому ШІ повинен навчитися. Це дозволяє командам досягти належного рівня продуктивності, усуваючи надмірні зусилля, витрачені на розробку моделі методом проб і помилок, і не змінюючи суперечливі дані.

Під час процесу розробки менеджери, експерти та розробники можуть співпрацювати між собою:

  • досягти згоди щодо недоліків та ярликів
  • створити модель
  • оцінити результати
  • зробити більше вдосконалень

Завдяки цій стратегії команди можуть працювати одночасно і безпосередньо впливати на дані, які використовує система штучного інтелекту. Скорочення часу на розробку досягається завдяки усуненню зайвих переходів між командами та залученню людини в той момент, коли це найбільш необхідно.

Ще однією перевагою бізнес-моделі, орієнтованої на дані, є можливість для команд створювати єдині методи збору та класифікації фотографій, а також навчати, вдосконалювати та оновлювати моделі. Команди можуть легко вчитися на успіху попередніх ініціатив і використовувати ці знання для швидкого розширення нових.