TileDB улучшает поддержку разреженных массивов


TileDB, созданный для того, чтобы предоставить специалистам по данным более эффективный способ хранения, обновления, анализа и совместного использования больших наборов данных, позволяет моделировать данные в виде плотных или разреженных многомерных массивов. Новые функции версии 2 включают поддержку разнородных измерений и строковых измерений в разреженных массивах.

TileDB

TileDB состоит из формата данных многомерного массива, быстро встраиваемого механизма хранения C ++ с открытым исходным кодом с интеграцией инструментов обработки данных и собственной облачной службы TileDB Cloud, которая была запущена в ноябре 2019 года. ядро базы данных является бесплатным, вы платите за время вычислений. Существует также TileDB Enterprise, аналогичная TileDB Cloud, которая поставляется в виде лицензируемого программного обеспечения с поддержкой. TileDB Enterprise можно развернуть локально или в частном облаке с аутентификацией LDAP и SAML.

Встраиваемая библиотека C ++ TileDB включает API для C, C ++, Python, R, Java и Go. Библиотека интегрирована с Spark, Dask, PrestoDB, MariaDB, Arrow и геопространственными библиотеками, такими как PDAL, GDAL и Rasterio. В новом выпуске есть полностью переработанный TileDB R API, над которым работал Дирк Эддельбюттель, разработчик, известный своей работой над несколькими популярными пакетами R и член правления R Foundation. Команда TileDB говорит:

«Мы хотим сделать TileDB неотъемлемой частью экосистемы R и только приступаем к интеграции с другими ключевыми пакетами R, такими как tidyverse и Bioconductor».

TileDB 2.0 добавляет поддержку Google Cloud Storage и Azure Blob Storage к существующей поддержке AWS S3 вместе с полностью обновленным R API. Другое главное улучшение новой версии — поддержка разнородных и струнных размеров. Предыдущий выпуск TileDB поддерживал только однородные измерения, измерения с одним и тем же типом данных. Это хорошо сработало для некоторых данных, но разработчики поняли, что это ограничивает фреймы данных, в которых столбцы состоят из разных типов данных, таких как Date (Datetime) и Price (Double). Кроме того, многие фреймы данных также имеют столбцы String, которые пользователи нужно нарезать, например, Имя. TileDB 2.0 добавляет разнородные и строковые измерения, поэтому теперь полностью поддерживает использование с фреймами данных.

Новый выпуск доступен на GitHub или на сайте TileDB.


Добавить комментарий