Databricks Delta Lake теперь с открытым исходным кодом


На саммите Spark + AI, проходящем на этой неделе в Сан-Франциско, Databricks объявила, что она открыла исходный код своего уровня хранения Delta Lake, который обрабатывает этап, на котором данные переносятся в озеро данных организации.

Компания Databricks была создана первыми разработчиками Apache Spark и специализируется на коммерческих технологиях, использующих Spark. До сих пор Delta Lake была частью Databricks Delta, проприетарного стека от Databricks. Это единый аналитический движок и связанный с ним табличный формат, построенный на основе Apache Spark.

Delta Lake — это уровень хранения, на котором данные хранятся в формате Apache Parquet. Он разработан для использования в озерах данных, построенных на HDFS и облачном хранилище.

Озера данных используются для хранения как структурированных, так и неструктурированных данных, но данные могут быть ненадежными из-за проблем, включая несоответствие схем и отсутствие обеспечения согласованности. В некоторых столбцах могут отсутствовать данные, и могут закрасться несоответствия, когда схемы изменяются в одних частях конвейера, но не в других.

Databricks Delta сохраняет более точный контроль над схемами в различных частях озера данных, проверяя, что изменения схемы реплицируются по всему конвейеру. Для отсутствующих столбцов данных правильно установлено значение NULL, а язык определения данных (DDL) используется для добавления новых столбцов и обновления схем.

Эти функции, а также использование оптимистичного управления параллелизмом между записями и изоляция моментальных снимков для согласованного чтения во время записи означают, что Delta Lake предлагает поддержку транзакций ACID. Delta Lake также использует моментальные снимки для управления версиями данных для откатов и воспроизведения отчетов. В этом инструменте есть такие опции, как принудительное применение схемы, и все данные в Delta Lake хранятся в формате Apache Parquet, любимом формате для хранения и работы с большими наборами данных.

Еще одно преимущество Delta Lake заключается в том, что вы можете выполнять локальную разработку и отладку для разработки конвейеров данных на своем настольном компьютере или портативном компьютере. Delta Lake использует механизм Spark для метаданных озера данных и совместим с API Apache Spark.

Databricks говорит, что Delta в 10-100 раз быстрее, чем Apache Spark on Parquet. Он был разработан как для пакетной, так и для потоковой обработки и может использоваться для разработки конвейера, управления данными и обслуживания запросов.

Теперь, когда Delta Lake имеет открытый исходный код, Databricks может вносить вклад извне.


Добавить комментарий