MapR выпустила контейнер Docker, состоящий из Drill, Apache Spark, файловой системы MapR и MapR-DB, который предоставляет действительно полезный вариант для любого разработчика, которому нужен простой способ опробовать разработку больших данных.
MapR обеспечивает прямую обработку широкого спектра источников больших данных из одного компьютерного кластера, а теперь позволяет загружать данные в файлы, таблицы и потоки и работать с ними в аналитических механизмах, таких как Spark и Drill из основных IDE, без необходимости настраивать собственные серверы и настраивать собственный аналитический движок. Контейнер был разработан, чтобы позволить разработчикам запускать одноузловой кластер MapR на своем ноутбуке, а затем работать с данными, используя продукты платформы MapR, непосредственно из IDE, клиентов баз данных и других инструментов разработки программного обеспечения.
На видео ниже показано, как можно использовать контейнер:
Контейнер является бесплатным и поставляется с рядом компонентов, начиная с аналитических механизмов Drill и Spark. Apache Drill — это распределенный механизм запросов SQL, который работает с большинством нереляционных хранилищ данных, включая HBase, MongoDB, MapR-DB, HDFS, MapR-FS, Amazon S3, хранилище BLOB-объектов Azure, облачное хранилище Google, Swift, NAS и локальные файлы. Один запрос может объединять данные из нескольких хранилищ данных. На этом рисунке (из блога MapR) показан контейнер, используемый для работы с данными в Drill из IntelliJ:
Apache Spark — это механизм обработки данных Apache для обработки и анализа больших объемов данных. Он реализован на Scala и Java и работает в кластере.
Spark и Drill доступны в контейнере MapR Docker либо через соответствующие API-интерфейсы программно, либо с помощью инструментов командной строки, таких как sqlline и spark-submit.
Следующий элемент в контейнере — это копия системы управления MapR, основного веб-интерфейса для управления кластером MapR. Командную строку maprcli также можно использовать для настройки потоков, таблиц, томов файловой системы и других задач управления.
Файловая система MapR-XD также включена, чтобы обеспечить способ управления распределенным хранилищем. XD можно использовать для управления файлами, объектами и контейнерами. Вы также получаете базу данных NoSQL MapR-DB, которую можно использовать для управления и хранения JSON и двоичных данных. С MapR-DB можно работать с использованием API Open JSON Application Interface (OJAI), HBase API или инструментов командной строки mapr dbshell и hbase shell.
Последний элемент в контейнере — это MapR Streams. Его можно использовать для распределенного хранилища данных в реальном времени, и вы можете работать с ним для публикации и использования сообщений в потоках с помощью Kafka API или Spark Streaming API.