Новая база данных, разработанная специально для управления частично структурированной информацией, доступна в бета-форме.
Система управления большими данными AsterixDB (BDMS) была разработана в течение последних четырех лет исследователями из Калифорнийского университета в Ирвине, Калифорнийского университета в Риверсайде и Калифорнийского университета в Сан-Диего. Проект спонсируется Национальным научным фондом (NSF) и предназначен для приема, хранения, управления, индексации, запросов и анализа огромных объемов полуструктурированной информации.
Исследователи взяли идеи из трех различных областей — полуструктурированные данные, параллельные базы данных и вычисления с интенсивным использованием данных (также известные как современные платформы больших данных) и объединили их, чтобы создать то, что разработчики описывают как «открытое новое поколение». исходная программная платформа, которая масштабируется за счет работы на крупных массовых вычислительных кластерах без совместного использования ресурсов ».
Полуструктурированная информация, на управление которой направлен проект, может быть чем угодно, от хорошо типизированных и очень регулярных данных до более нерегулярных данных, где значения данных могут быть текстовыми, а окончательная схема для различных задействованных типов данных может быть такой: трудно предвидеть впереди.
Команда сконцентрировалась на решениях проблем, которые порождают наборы больших данных, таких как потребность в высокомасштабируемом хранилище и индексировании данных. Он также исследовал полуструктурированную обработку запросов на очень больших кластерах. Еще одна область исследований заключалась в том, как объединить методы параллельных баз данных с современными методами интенсивных вычислений в надежде найти решения проблемы хранения и эффективного анализа полуструктурированной информации.
Команда выпустила бета-версию системы AsterixDB, в которой собраны их исследования.
AsterixDB имеет полуструктурированную модель данных в стиле NoSQL (ADM), полученную в результате расширения JSON идеями объектной базы данных. Он предлагает базовые транзакционные возможности для параллелизма и восстановления, схожие с возможностями хранилища NoSQL.
Язык запросов (AQL) описывается как выразительный и декларативный, и он поддерживает широкий спектр запросов и анализа полуструктурированных данных. Запросы могут обращаться к данным, хранящимся во внешних источниках (например, к данным в HDFS), а также к данным, изначально хранящимся в AsterixDB.
Механизм выполнения запросов во время параллельного выполнения, Hyracks, был протестирован на более чем 1000 ядер и 500+ дисках. AsteriskDB также поддерживает многораздельное хранение и индексирование данных на основе LSM. Это сделано для обеспечения эффективного приема и управления полуструктурированными данными. Вторичные варианты индексации включают деревья B +, деревья R и типы индекса с инвертированными ключевыми словами (точный и нечеткий), а также вы можете создавать нечеткие и пространственные запросы. Поддерживаемые типы данных включают пространственные и временные данные в дополнение к целочисленным, с плавающей запятой и текстовым.
Говоря о бета-версии, исследователи говорят, что «надеются, что появление AsterixDB ознаменует начало« эры BDMS »». Они надеются, что AsterixDB будет полезен для гораздо более широкого класса проблем, чем можно решить с помощью любой из современных платформ больших данных и связанных с ними технологий, таких как Hadoop, Pig, Hive, HBase, MongoDB и т. Д. Это довольно большая амбиция, и будет интересно посмотреть, добьются ли они успеха.