Есть новая версия Dremio, проекта с открытым исходным кодом, разработанного, чтобы дать бизнес-аналитикам и специалистам по обработке данных возможность исследовать и анализировать данные независимо от их структуры или размера. Нововведениями в этом выпуске являются каталог данных, приоритетное управление рабочими нагрузками и поддержка Kubernetes.
Разработчики Dremio описывают его как платформу виртуализации данных. Программное обеспечение основано на Apache Arrow, Apache Parquet и Apache Calcite, а компания, стоящая за Dremio, является основным разработчиком Arrow. Apache Arrow — это кросс-языковая платформа для разработки данных в памяти. Он определяет стандартизованный независимый от языка столбчатый формат памяти для плоских и иерархических данных. Apache Parquet предлагает аналогичные функции для файлового хранилища. использует Apache Calcite используется для синтаксического анализа SQL и оптимизации запросов.
Дремио строит структуры на основе стрел, которые называются отражениями. Это оптимизированные копии данных на основе запросов к источникам данных. У Dremio также есть оптимизатор запросов, который использует Apache Arrow для определения наилучшего представления данных и ускорения запроса. Это может означать, что запрос к кластеру ElasticSearch (например) будет использовать вместо этого представление данных в виде стрелки.
Dremio также имеет встроенный язык запросов на основе SQL, который предоставляет функции, аналогичные функциям экономичных оптимизаторов, таких как SparkSQL, но с добавлением Reflections, чтобы развить идею дальше, предоставляя оптимизированную копию данных.
В новой версии Dremio добавлен каталог данных, предполагающий, что пользователи смогут выполнять простой поиск в стиле Google для поиска наборов данных. Под покровом администраторы Dremio помечают наборы данных, чтобы организовать их так, чтобы потребители данных могли их обнаружить. Каталог включает встроенные вики-страницы, на которых можно хранить информацию, например, о том, кому задавать вопросы, как часто обновляются данные, какие источники данных составляют набор данных, а также снимки экрана отчетов и визуализаций, использующих набор данных.
Этот выпуск также включает поддержку Gandiva, нового ядра исполнения для Arrow, основанного на LLVM. Gandiva обеспечивает повышение производительности для низкоуровневых операций с буферами Arrow. Разработчики говорят, что при правильных обстоятельствах использование Gandiva может значительно улучшить производительность запросов — некоторые ранние тестировщики сообщили об улучшениях более чем в 70 раз.
Безопасность была улучшена за счет встроенной интеграции с Apache Ranger для централизованного контроля доступа. Кроме того, Dremio 3.0 теперь поддерживает сквозное шифрование TLS.
Были добавлены новые элементы управления многопользовательской рабочей нагрузкой, чтобы администраторы могли управлять распределением ресурсов в зависимости от пользователя, членства в группах, времени суток, источника данных и типа запроса с помощью стандартного SQL.
Поддержка Kubernetes осуществляется через официальный образ Docker и шаблоны для гибких высокодоступных развертываний с использованием инфраструктуры оркестрации Kubernetes.
В другом месте есть новый декларативный механизм для источников реляционных баз данных, который предназначен для обеспечения более эффективной обработки в таких системах, как Postgres, SQL Server, Oracle и Teradata; и поддержка новых источников daa, включая Azure Data Lake Store, Elasticsearch 6, AWS S3 GovCloud и Teradata.