Google добавляет поддержку заданий SparkR в Cloud Dataproc, описывая этот шаг как последнюю главу в создании поддержки R на облачной платформе Google (GCP). SparkR — это пакет, который обеспечивает легкий интерфейс для использования Apache Spark от R.
Возможность запуска заданий SparkR означает, что разработчики R могут использовать операции, подобные dplyr, для наборов данных практически любого размера, хранящихся в облачном хранилище. SparkR также поддерживает распределенное машинное обучение с использованием MLlib.
Cloud Dataproc-это полностью управляемый облачный сервис GCP для запуска кластеров Apache Spark и Apache Hadoop. Служба имеет API заданий, который можно использовать для отправки заданий SparkR в кластер без необходимости открывать брандмауэры для доступа к веб-IDE или SSH непосредственно на главный узел. С помощью API заданий вы можете автоматизировать повторяемую статистику R, которую вы хотите запустить в своих наборах данных.
Доступ к поддержке SparkR можно получить через обычный интерфейс RStudio или с помощью API заданий SparkR для выполнения кода SparkR и автоматизации задач. При доступе из RStudio сервер RStudio может работать либо на главном узле Cloud Dataproc, виртуальной машине Google Compute Engine, либо где-то за пределами GCP. Пользователи будут платить только за сервер RStudio, пока он используется, и его можно отключить, когда он не используется.
Помимо поддержки SparkR, другие параметры поддержки R в GCP включают пакет bigrquery, который можно использовать для работы с данными, хранящимися в BigQuery, позволяя запрашивать таблицы BigQuery и извлекать метаданные о ваших проектах, наборах данных, таблицах и заданиях. Существует также интерфейс R для TensorFlow, который позволяет работать с высокоуровневыми API Keras и Estimator, а также с основным API TensorFlow. Задания SparkR на Dataproc позволяют обучать и оценивать модели Spark MLlib в масштабе. Существует также интерфейс R для облачного машинного обучения (ML).