Была выпущена новая база данных, призванная помочь командам по анализу данных быстрее делать открытия, предоставляя им более мощный способ хранения, обновления, анализа и обмена большими наборами разнообразных данных.
TileDB состоит из нового формата данных многомерного массива, быстрого встраиваемого механизма хранения C ++ с открытым исходным кодом с интеграцией инструментов обработки данных и облачной службы для простого управления данными и бессерверных вычислений.
Разработчики говорят, что традиционные базы данных не идеальны для использования в науке о данных, поскольку они не оптимизированы для облака, в то время как облачные хранилища объектов страдают от неизменности объектов, конечной согласованности и ограничения запросов ввода-вывода. Вторая проблема заключается в том, что некоторые форматы не имеют достаточной поддержки для эффективного обновления данных. Они приводят пример обновления файла Parquet, требующего создания нового файла, передачи всей логики обновления в приложение более высокого уровня пользователя, и говорят, что аналогичные проблемы возникают всякий раз, когда логика обновления не встроена в механизм форматирования и хранения, а это скорее делегируется приложениям более высокого уровня.
Наконец, разработчики называют проблемой ограниченный объем, поскольку большинству приложений для обработки данных требуется как минимум два отдельных формата файлов для обработки как данных массива, так и фреймов данных; многомерные массивы для таких целей, как линейная алгебра; и фреймы данных для операций OLAP.
Команда начала с уровня хранения при создании TileDB и сказала, что у него есть единственный механизм форматирования и хранения, который обрабатывает как плотные, так и разреженные многомерные массивы. Он поддерживает эффективный ввод-вывод массива на нескольких серверах хранения, включая хранилища облачных объектов, такие как AWS S3. Он также предлагает быстрые, высокопараллельные, без блокировок, пакетные обновления, которые особенно хорошо работают в облаке с неизменяемыми объектами. Вся логика и функциональность обновления (например, путешествия во времени) встроены в механизм форматирования и хранения.
TileDB предлагает автономную встраиваемую библиотеку C ++, которая поставляется с API на языках C, C ++, Python, R, Java и Go и имеет прямой доступ к массивам TileDB. Библиотека интегрирована с Spark, Dask, PrestoDB, MariaDB, Arrow и геопространственными библиотеками, такими как PDAL, GDAL и Rasterio. TileDB отправляет в хранилище как можно больше вычислений, таких как условия фильтрации из механизмов SQL и вычисления фреймов данных из Dask и Spark.
Наряду с базой данных есть TileDB Cloud, платная услуга с оплатой по мере использования, которую вы можете использовать для совместного использования массивов TileDB в облаке с другими пользователями и выполнения над ними бессерверных вычислений. И TileDB, и TileDB Cloud доступны для тестирования прямо сейчас.