Dplyr

Оновлено: 31.07.2023

Dplyr (вимовляється як "ді-плі-ер") - це провідний інструмент маніпулювання даними в R. Дослідники даних можуть скоротити і краще зрозуміти час, що витрачається на підготовку та адміністрування даних, вивчивши і використовуючи dplyr.

  • Датаналітики часто використовують dplyr для перетворення вже існуючих наборів даних у більш придатний формат для досліджень або візуалізації даних.
.

У 2014 році з'явився dplyr в R, одному з основних пакетів tidyverse. Хедлі Вікхем (Hadley Wickham), розробник пакета dplyr, називає його "мовою маніпулювання даними". Це пов'язано з тим, що пакет включає набір дієслів (функцій) для визначення та виконання частих операцій з підготовки даних. Зіставлення запитів щодо збору даних з конкретними комп'ютерними операціями є однією з основних проблем програмування. Оскільки завдяки наявності граматики маніпулювання даними можна використовувати одну й ту саму мову і для опитування, і для кодування, ця процедура проходить більш гладко. Зокрема, мова dplyr дозволяє легко обговорювати і виконувати ці завдання:

  • Фільтрувати набір даних, залишивши лише стовпчики, необхідні для відповіді на запитання - Вибрати.
  • Фільтрувати нерелевантні дані та зберегти лише релевантні спостереження (рядки) залежно від заданих критеріїв.
  • Модифікувати набір даних, додавши більше характеристик (стовпчиків) - Мутувати.
  • Впорядкувати спостереження (рядки) - Мутувати.
  • Узагальнити дані, використовуючи агреговані показники.
  • У певному порядку розташувати спостереження (рядки).
  • Узагальнювати дані, використовуючи такі агрегати, як середнє, медіана та максимум.
  • Об'єднувати окремі набори даних в одну комплексну таблицю.
.

Використовуючи ці терміни, ви можете описати техніку або процес запиту даних, і dplyr згенерує код, який буде близьким до вашого опису "простою англійською мовою" завдяки схожості мови, що використовується у функціях і процесах. Дійсно, на багато практичних запитів щодо збору даних можна відповісти, виділивши окремі рядки/стовпчики як "елементи, що становлять інтерес", а потім виконавши просте порівняння або обчислення. Хоча еквівалентні обчислення можна виконати за допомогою базових функцій R, функції dplyr у R значно спрощують створення і розуміння такого коду.

Запуск dplyr

Оскільки dplyr є зовнішнім пакунком, його потрібно встановити (один раз на комп'ютер) і завантажити у кожному скрипті, де будуть використовуватися його функції:

  • install.packages("dplyr") # один раз на машині
  • library("dplyr") # у кожному відповідному скрипті

Після завантаження пакунка його функції можна використовувати так само, як і будь-які інші вбудовані. Більше того, якщо ви хочете встановити інші програми з колекції tidyverse, ви можете зробити це, імпортувавши зібраний пакунок tidyverse.

  • Dplyr - це мова маніпулювання даними, яка надає послідовний набір дієслів, щоб допомогти вам подолати найпоширеніші труднощі маніпулювання даними.
.

Дпйр підсумовує:

  • mutate() вводить нові змінні, які слугують функціями для наявних змінних.
  • select() вибирає змінні за їхніми іменами.
  • filter() вибирає регістри за їхніми значеннями.
  • summarize() підсумовує численні значення в одне.
  • arrange() змінює впорядкування рядка.

Всі вони природно інтегруються з групою by(), дозволяючи вам виконувати будь-які дії "групою". У віньєтці ви можете дізнатися про них більше ("dplyr"). На додаток до перелічених вище дієслів, які потребують лише однієї таблиці, dplyr також пропонує широкий вибір дієслів, які потребують двох таблиць, як описано у наступній віньєтці ("two-table").

Бекенди

Dplyr не тільки спрощує і прискорює роботу з фреймами даних і тиблами, а й з широким спектром додаткових обчислювальних бекендів. Ось альтернативні бекенди:

  • dtplyr для величезних наборів даних у пам'яті. Перетворює ваш dplyr-код у дані з хорошою швидкістю табличного коду.
  • dbplyr для даних, що зберігаються у реляційних базах даних. SQL-переклад вашого dplyr-коду.
  • sparklyr для зберігання дуже великих наборів даних у Apache Spark.
.