Apache Druid, высокопроизводительная аналитическая база данных в реальном времени, предназначенная для рабочих процессов, где действительно важны быстрые запросы и захват, была обновлена с улучшениями, включая улучшенное сжатие и пакетное получение.
В настоящее время Druid является инкубатором Apache:
разработан для обеспечения мгновенной видимости данных, специальных запросов, оперативной аналитики и обработки высокого уровня параллелизма и предоставляет альтернативу хранилищам данных с открытым исходным кодом.
Первоначально он был разработан в стартапе под названием Metamarkets для создания универсального аналитического решения для программной цифровой рекламы. Рекламные технологии — это область, которая генерирует данные для сотен миллиардов или даже триллионов новых записей в день, и Druid был разработан, чтобы справиться с этим уровнем данных. С тех пор он был расширен для ситуаций, которые неадекватно решаются классическими стеками аналитики. Области приложений, для которых используется Druid, включают аналитику сетевых потоков, аналитику продуктов и поведение пользователей. Его используют крупные компании, включая NTT, WalkMe, Pinterest, Netflix, Airbnb, Lyft и Walmart.
Druid может выполнять потоковую передачу данных из шин сообщений, таких как Kafka и Amazon Kinesis, и пакетную загрузку файлов из озер данных, таких как HDFS и Amazon S3. Наряду с поддержкой хранения, ориентированного на столбцы, Druid также включает проекты из поисковых систем и баз данных таймсерий.
Разработчики говорят, что Druid лучше традиционных хранилищ данных, потому что он имеет гораздо меньшую задержку для запросов в стиле OLAP и для приема данных (как потокового, так и пакетного). Его поддержка разбиения на основе времени означает, что запросы, основанные на времени, могут выполняться эффективно, и он имеет быстрый поиск и фильтрацию для быстрых фрагментов и кубиков. Это делает его удобным для использования с аналитикой в реальном времени и там, где конечный пользователь (технический или нет) хочет применить многочисленные запросы в быстрой последовательности, чтобы изучить или лучше понять тенденции данных.
Последний выпуск включает обновление встроенной системы пакетной загрузки. Внутренняя структура теперь поддерживает нетекстовые двоичные форматы с начальной поддержкой ORC и Parquet. Также было добавлено одномерное разбиение по диапазону для параллельного встроенного пакетного приема, что означает, что теперь можно выполнять разбиение на основе диапазона по одному измерению.
Улучшения уплотнения начинаются с поддержки подсказок разделения задач параллельного индекса, то есть операторы могут предоставлять подсказки для управления объемом данных, считываемых каждой подзадачей первого этапа. Была добавлена поддержка параллельного и автоматического сжатия с отслеживанием состояния, и брокер Druid теперь может произвольно объединять результаты запросов параллельно, используя несколько потоков.