Naive Bayes Models
Оновлено: 31.07.2023
Класифікатор Naive Bayes - це один із серії надзвичайно простих імовірнісних класифікаторів, заснованих на теоремі Байєса. Класифікатор отримав назву "Наївний Байєс" - в деяких книгах він також відомий як "Ідіот Байєс" - оскільки обчислення для кожного класу були скорочені, щоб зробити їх простими. Модель "Наївний Байєс" - це, по суті, умовна ймовірнісна класифікація з використанням теореми Байєса.
Ймовірність того, що подія відбудеться, називається умовною ймовірністю. Ще одна класна річ, яку ми можемо зробити за допомогою умовної ймовірності - це обчислити об'єднану ймовірність, тобто ймовірність того, що дві або більше подій відбудуться одночасно. З іншого боку, спільна ймовірність може бути використана для визначення умовної ймовірності; однак, оскільки спільну ймовірність іноді важко обчислити, ми застосовуємо теорему Байєса для обчислення умовної ймовірності.
У МЛ є три основні категорії навчальних проблем:
- Навчання під наглядом
- Навчання без нагляду
- Навчання через підкріплення
Алгоритм Naive Bayes зазвичай використовується для задач керованого навчання. Кероване навчання можна розділити на задачі регресії, в яких модель вчиться передбачати безперервні значення, і задачі класифікації, в яких модель вчиться передбачати категорію/клас - наївний Байєс належить до останньої категорії.
Використання
Незважаючи на припущення, що кожна вхідна змінна є незалежною від усіх інших змінних, що є сильним припущенням, враховуючи, що змінні рідко взаємодіють у реальних даних, наївний класифікатор Байєса чудово справляється з різноманітними завданнями. Розглянемо наступний приклад:
Класифікація документів передбачає віднесення документа до одного або декількох класів або категорій, наприклад, розподіл новин за такими категоріями, як спорт, бізнес, політика тощо. Це також включає категоризацію спаму.
Прогнозування в реальному часі: Оскільки наївний алгоритм Байєса є класифікатором, що швидко навчається, його можна використовувати для створення прогнозів у реальному часі.
Передбачення екземплярів до одного з трьох або більше класів відоме як багатокласове передбачення.
Аналіз настроїв - це одна з методик, що використовується в обробці природної мови. Його мета - з'ясувати, чи є дані позитивними чи негативними.
Переваги та недоліки наївного Байєса
- Наївний Байєс - це проста модель, яку легко реалізувати. Вона також забезпечує швидкі прогнози і може впоратися з багатокласовими завданнями прогнозування
- Має безліч можливостей, які добре працюють з даними, наприклад, категоризація тексту і виявлення спаму в електронній пошті.
- Не потрібно багато навчальних даних, щоб виявити інтригуючі ідеї, а коли набір даних невеликий, вона може перевершити складні моделі машинного навчання.
- У реальному світі передумова класифікатора Наївного Байєса про те, що всі змінні є незалежними, часто виявляється хибною.
Покращення наївної моделі Байєса
- Якщо неперервні ознаки не мають нормального розподілу, слід використовувати перетворення або інші процедури для перетворення їх до одиниці.
- Якщо тестовий набір даних має проблему нульової частоти, використовуйте методи згладжування з поправкою Лапласа для оцінки класу тестового набору даних.
- Видаляйте зв'язані ознаки, оскільки вони двічі голосують у моделі, що може призвести до завищеної оцінки релевантності.
- Наївні класифікатори Байєса мають обмежену кількість варіантів налаштування параметрів, таких як alpha=1 для згладжування, fit prior=[True|False], щоб дізнатися або не дізнатися попередні ймовірності класів, та деякі інші.
- Ви можете розглянути можливість використання комбінованого підходу до класифікатора, наприклад, об'єднання, пакування або бустінгу, проте ці методи не допоможуть.
Підсумок
Незважаючи на використання занадто спрощених припущень щодо даних, наївний класифікатор Байєса виявився дуже успішним у різноманітних реальних додатках. Машинне навчання мало значний вплив на всі галузі, які прийняли його як частину свого робочого процесу. Все більше фірм з різних галузей починають інвестувати в ШІ та МЛ, оскільки вважається, що ці технології будуть критично важливими для довгострокового корпоративного успіху.