Команда, стоящая за R Studio, анонсировала SparklyR, новый пакет, который обеспечивает интерфейс между R и Apache Spark.
Новый пакет направлен на удовлетворение потребности в собственном интерфейсе dplyr для Spark и обеспечение интерфейсов для алгоритмов распределенного машинного обучения Spark. Dplyr-это пакет, который предоставляет набор инструментов, которые вы можете использовать для управления наборами данных в R. Это разработка от plyr, ориентированная только на фреймы данных.
Новый пакет позволяет интерактивно манипулировать данными Spark как с помощью dplyr, так и с помощью SQL (через DBI). Вы можете фильтровать и агрегировать наборы данных Spark, а затем переносить их в R для анализа и визуализации.
Пакет также может использоваться для организации распределенного машинного обучения из R с использованием Spark MLlib или H2O SparkingWater. Оба предоставляют набор высокоуровневых API, построенных поверх фреймов данных, которые помогают создавать и настраивать рабочие процессы машинного обучения.
Разработчики также могут расширить пакет с помощью расширений, которые вызывают полный API Spark и предоставляют интерфейсы для пакетов Spark, поскольку средства, используемые sparklyr для своих интерфейсов dplyr и машинного обучения, доступны для пакетов расширений.
Вы можете настроить соединения Spark и просматривать фреймы данных Spark в среде IDE RStudio с помощью SparklyR, а также подключаться к Spark из R через встроенный сервер dplyr.
Последняя версия RStudio Preview IDE RStudio включает интегрированную поддержку Spark и пакета sparklyr, включая инструменты для:
- Создание и управление подключениями Spark
- Просмотр таблиц и столбцов фреймов данных Spark
- Предварительный просмотр первых 1000 строк фреймов данных Spark
Окончательная версия RStudio IDE, включающая интегрированную поддержку sparklyr, будет выпущена в течение следующих нескольких недель.