Independent and Identically Distributed Data (IDD)

Оновлено: 31.07.2023

IID - це найпоширеніший тип випадкових даних, з якими ви стикаєтесь у повсякденному житті. Підкидання (чесної) монети є найпотужнішим і найпростішим прикладом цього. Всі підкидання є "незалежними", оскільки монета не пам'ятає, що вона показувала вчора.

Змінні розподілені однаково, оскільки ймовірність того, що ви отримаєте орел або решку при кожному підкиданні, становить 50% на 50%, що призводить до ідентичного і рівномірного розподілу.

  • Незалежні та однаково розподілені дані - властивість послідовності випадкових величин, в якій кожен елемент має той самий розподіл ймовірностей, що й інші значення, і є взаємно незалежним.
.

Простіше кажучи, незалежний та ідентичний розподіл означає, що значення в будь-якій точці випадкового процесу є випадковими величинами. Якщо ці величини мають однаковий розподіл і не залежать одна від одної, то вони розподілені незалежно та ідентично.

Якщо випадкові величини X1 і X2 незалежні, це означає, що значення X1 не впливає на значення X2, що значення X2 не впливає на значення X1, і що випадкові величини X1 і X2 мають однаковий розподіл.

В результаті, X1 і X2 знаходяться в одному човні. Однакова функція розподілу Однаковий розподіл, однакова ймовірність для випадкових величин ids, однакове математичне сподівання та дисперсія мають однакову форму розподілу та параметри розподілу.

IDD та машинне навчання

ML - це процес навчання та тренування на поточних даних з метою прогнозування та моделювання даних у майбутньому. Таким чином, всі вони базуються на минулих даних, а моделі застосовуються для майбутніх даних. Як наслідок, ми повинні покладатися на історичні дані, які є широко репрезентативними.

Щоб приймати рішення на основі невідомих фактів, ми повинні узагальнити правила на основі поточних даних (досвіду). Якщо отримані навчальні дані не є типовими для всього сценарію, або якщо це окремий випадок, то правила будуть узагальнені неправильно. Ці закони не мають популяризаторського ефекту, оскільки базуються на окремих випадках.

Окремі випадки у навчальній вибірці можна значно зменшити, якщо припустити незалежний та однаковий розподіл.

Як дізнатися, чи рівномірно і незалежно розподілені ваші дані? Ось кілька корисних порад!

Подумайте, як ви збирали дані для забезпечення незалежності. Чи використовували ви зручну вибірку, чи випадкову вибірку? Чи відчуваєте ви, що послідовні спостереження пов'язані між собою або впливають одне на одного, якщо ви використовуєте легкодоступних суб'єктів?

Визначте, чи є якісь тенденції в даних для однаково розподіленої ділянки. У цьому вам допоможуть графіки. Шукайте тенденції у ваших даних, наносячи їх на графік у тому порядку, в якому ви вимірювали кожен елемент.

  • Припущення IDD в машинному навчанні є центральним для однієї з найбільш широко використовуваних теорем науки про дані, центральної граничної теореми (ЦГТ), яка лежить в основі перевірки гіпотез. Згідно з ЦГТ, якщо ми беремо достатньо великі випадкові вибірки з генеральної сукупності, то середні значення вибірки будуть розподілені приблизно за нормальним законом. Як бачимо, взяті випадкові вибірки не можуть бути залежними, а розподіл випадкової величини не може змінюватися з часом.
  • Припущення ЦГТ також лежить в основі закону великих чисел, який стверджує, що спостережуване вибіркове середнє з великої вибіркової сукупності буде близьким до істинного середнього по генеральній сукупності і буде наближатися до нього зі збільшенням розміру вибірки.
.

Певним чином припущення про незалежні та однаково розподілені дані машинного навчання допомагає в навчанні алгоритмів, оскільки припускає, що розподіл даних не зміниться в часі або просторі і що вибірки не будуть залежати одна від одної.

Однак машинне навчання не обов'язково потребує рівномірного розподілу даних і процесу IDD. Зразки (дані) з одного і того ж розподілу потрібні в багатьох задачах, оскільки вважається, що модель, розроблена на навчальному наборі даних, може бути обґрунтовано використана в тестовому наборі.

Цей метод можна зробити більш логічним, якщо припустити однаковий розподіл. Багато питань машинного навчання не вимагають однакового розподілу вибірок, оскільки зміст сучасного напрямку машинного навчання став досить широким. Наприклад, деякі онлайн-алгоритми, розроблені в галузі машинного навчання, не потребують розподілу даних.