Коннектор Apache Spark MapR обеспечивает поддержку JSON


Появился новый Native Spark Connector для MapR-DB JSON, который предоставляет разработчикам API для доступа к документам MapR-DB JSON из Apache Spark с помощью API Open JSON Application Interface (OJAI).

Apache Spark — это платформа обработки больших данных с открытым исходным кодом, которая используется для аналитики потоковых и пакетных рабочих нагрузок. MapR-DB — это высокопроизводительная база данных NoSQL, которая поддерживает две основные модели данных: документы JSON и таблицы с широкими столбцами. Соединитель Spark доступен для каждой модели данных. С соединителями Spark / MapR-DB вы можете использовать MapR-DB как источник данных и как место назначения данных для заданий Spark.

Собственный соединитель Spark для MapR-DB JSON поддерживает загрузку данных из таблицы MapR-DB в виде устойчивого распределенного набора данных Spark (RDD) документов OJAI и сохранение Spark RDD в таблицу MapR-DB JSON. (RDD — это базовый формат для хранения данных для использования Spark.)

Коннектор включает набор API-интерфейсов, которые позволяют пользователям MapR создавать приложения, которые используют таблицы JSON MapR-DB и использовать их в Spark. Это дополнение к двоичному коннектору MapR-DB для Apache Spark, которое можно использовать для написания приложений, которые используют двоичные таблицы HBase и используют их в Spark.

Коннектор имеет два API, которые позволяют загружать данные из таблицы MapR-DB JSON в Spark RDD или сохранять Spark RDD в таблицу MapR-DB JSON. Он также обеспечивает поддержку классов компонентов Scala, имеет настраиваемый разделитель, который позволяет разбивать данные для повышения производительности, и поддерживает локальность данных. Когда коннектор считывает данные из MapR-DB, он использует функцию локализации данных MapR-DB для создания исполнителей Spark.

Native Spark Connector включает поддержку фреймов данных и API наборов данных, поэтому двоичные таблицы HBase и MapR-DB можно запрашивать напрямую с помощью Spark. Преимущество этого предложения заключается в том, что он удаляет все промежуточные уровни, упрощая создание более быстрых конвейеров данных и уменьшая задержку, связанную с перемещением данных.


Добавить комментарий