Cloudera анонсировала Implala, механизм запросов в реальном времени для Apache Hadoop, который будет работать с данными, хранящимися в распределенной файловой системе Hadoop, HDFS; а в HBase — нереляционная распределенная база данных.
Impala позволяет запрашивать данные с помощью функций SQL SELECT, JOIN и агрегирования в реальном времени. Он использует те же метаданные, синтаксис SQL (Hive SQL), драйвер ODBC и пользовательский интерфейс (Hue Beeswax), что и Apache Hive. Первоначальная бета-версия включает поддержку текстовых файлов и файлов SequenceFiles, а также поддержку дополнительных форматов, включая текстовые файлы Avro, RCFile, LZO, а для производственной версии запланирован столбчатый формат Trevni Дуга Каттинга.
Cloudera говорит, что, чтобы избежать задержки, Impala обходит MapReduce для прямого доступа к данным через специализированный механизм распределенных запросов. Компания заявляет, что результатом является на порядок более высокая производительность, чем у Hive, в зависимости от типа запроса и конфигурации.
Преимущества этого подхода заключаются в том, что благодаря локальной обработке на узлах данных устраняются узкие места в сети, и данные могут запрашиваться немедленно без задержек для ETL.
Бинарный файл Impala теперь доступен в публичной бета-версии как виртуальная машина. Вы также можете просмотреть исходный код и средства тестирования на Github.
здесь: http://github.com/cloudera/impala.