Synthetic Data Generation

Оновлено: 31.07.2023

Що таке синтетичні дані і чому вони важливі?

Синтетичні дані - це штучні дані, створені для захисту конфіденційності, тестування систем або створення навчальних даних для алгоритмів ML. Створення синтетичних даних є життєво важливим, оскільки вони впливають на якість змодельованих даних; наприклад, синтетичні дані, які можна перепрограмувати для ідентифікації реальних даних, марні для захисту приватності.

  • Синтетичні дані - це фейкові дані, створені за допомогою різних алгоритмів, які імітують статистичні якості реальних даних, але не розкривають жодної інформації про реальних осіб.
.

Синтетичні дані корисні тим, що вони можуть бути розроблені для задоволення унікальних потреб або ситуацій, які не задовольняються наявними (фактичними) даними. Це може бути корисно в різних ситуаціях, зокрема

  • Коли доступність або використання даних обмежена через міркування конфіденційності
  • Дані потрібні для тестування продукту перед його публікацією, але такої інформації ще не існує або вона недоступна для тестувальників.
  • Алгоритми машинного навчання потребують навчальних даних. Однак отримання таких даних у реальному житті коштує дорого, особливо в контексті безпілотних автомобілів.
  • .

Хоча синтетичні дані були вперше використані в 1990-х роках, обсяг обробки і пам'яті в 2010-х роках зробив синтетичні дані більш широко використовуваними.

Синтетичні дані в машинному навчанні

Усередині сектору ML привертає увагу синтетична генерація даних. Алгоритми ML навчаються на величезних обсягах даних, а збір необхідної кількості маркованих навчальних даних може виявитися надто дорогим задоволенням.

Компанії та дослідники можуть використовувати синтетично створені дані для створення наборів даних, необхідних для попереднього навчання моделей ML - процесу, відомого як трансферне навчання.

Зараз тривають дослідницькі проекти, спрямовані на вдосконалення синтетичного генерування даних у машинному навчанні.

Застосування синтетичних даних

Підходи до синтетичних даних обслуговують дві галузі: фінансові послуги та охорону здоров'я. Ці підходи можна використовувати для створення синтетичних даних на основі реальних даних. Це дозволяє фахівцям з даних вільніше використовувати дані та обмінюватися ними.

Наприклад, синтетичні дані дозволяють медичним працівникам робити дані рекордного рівня доступними для громадськості, зберігаючи при цьому анонімність пацієнта.

Синтетичні набори даних, такі як платежі кредитними картками, які виглядають і поводяться як звичайні дані про транзакції, можуть допомогти у виявленні шахрайської поведінки у фінансовій індустрії. Дослідники даних можуть використовувати підроблені дані для тестування або оцінки систем виявлення шахрайства та створення нових підходів до виявлення шахрайства.

Синтетичні дані використовуються командами DevOps для тестування програмного забезпечення. Штучно створені дані можна вводити в процес, не вилучаючи реальні дані.

Як створити синтетичні дані?

Компанії можуть використовувати кілька підходів для проведення процесу синтезу даних, таких як DL-алгоритми, дерева рішень та ітеративне пропорційне припасування. Вони повинні обирати підхід, виходячи з вимог до створення синтетичних даних для машинного навчання.

Вони повинні оцінювати цінність синтезованих даних після їх синтезу, порівнюючи їх з фактичними даними.

Процес створення зразків тестових даних для використання в запущених тестових кейсах називається створенням тестових даних. Існує кілька інструментів для створення синтетичних даних з відкритим вихідним кодом, які генерують корисні дані, що нагадують дані виробничих тестів.

Ключові висновки

  • Робота з чистими даними необхідна для розробки синтетичних даних. Якщо ви не очистите і не підготуєте вхідні дані перед синтезом.
  • Визначте, чи є синтетичні дані достатньо порівнянними з фактичними даними для їх використання за призначенням: Корисність синтетичних даних залежить від технології, яка використовується для їх створення. Ви повинні вивчити їхній сценарій використання і визначити, чи підходять створені синтетичні дані для унікального сценарію використання.
  • Визначте, чи володіє ваша організація навичками роботи з синтетичними даними, і зверніться до аутсорсингу в залежності від прогалин у цих навичках. Синтез і підготовка даних - це два найважливіші етапи. Постачальники можуть автоматизувати обидва етапи.
.