Толстокожий становится быстрее и получает финансирование


Компания по производству озера данных Pachyderm объявила о выпуске новой версии своего программного обеспечения, а также о выделении 10 миллионов долларов на будущую разработку. Разработчики говорят, что новая версия Pachyderm увеличивает производительность рабочих нагрузок более чем в тысячу раз, позволяя обрабатывать 100 терабайт данных за одно задание.

Pachyderm — это механизм хранения и аналитики, который используется в той же области, что и такие инструменты, как MapReduce. Pachyderm позволяет объединять данные в конвейеры данных для выполнения таких операций, как сбор данных, прием, очистка, обработка, моделирование и анализ. Вы просто декларативно указываете Pachyderm, что хотите запустить, а Pachyderm заботится о запуске, сегментировании данных, параллелизме и управлении ресурсами на бэкэнде.

Он упаковывает все в контейнеры и имеет встроенные примитивы управления зависимостями и совместной работы. Он использует хорошо зарекомендовавшие себя продукты с открытым исходным кодом, включая Docker и Kubernetes, поэтому разработчики могут сосредоточиться только на платформе аналитики. Это означает, что пользователи могут использовать любые языки или библиотеки, которые нужны их конвейеру. Pachyderm также имеет опции для контроля версий данных, поэтому система может показать, как данные изменились. Pachyderm также отслеживает, откуда поступают данные, и может выполнять инкрементную обработку: обрабатывать только новые данные. Разработчики говорят, что одной из основных сильных сторон системы является использование хорошо зарекомендовавших себя продуктов с открытым исходным кодом для создания полного набора инструментов для хранения и анализа данных.

Улучшения в новом выпуске Pachyderm в основном касаются производительности. Разработчики переработали способ хранения и отслеживания метаданных управления версиями, и это означает, что для некоторых рабочих нагрузок производительность и масштабируемость улучшаются более чем в тысячу раз. Улучшения были вызваны узкими местами, возникшими при масштабировании клиентов, использующих предыдущую версию Pachyderm. Чтобы преодолеть это, уровень хранения Pachyderm (PFS) был изменен, чтобы он стал более умным в группировании операций записи в объектное хранилище, чтобы уменьшить задержку и повысить производительность. Формат метаданных также был переработан для поддержки внешней сортировки хэш-деревьев, используемых для создания снимков файловой системы.

Другие улучшения включают улучшенную поддержку данных SQL и CSV, что сокращает количество манипуляций для распределенной обработки, а также расширенную поддержку аутентификации и единого входа для управления доступом к определенным данным. Эта функция использует Okta, а корпоративная версия может использовать как GitHub, так и Okta для аутентификации и управления доступом пользователей в системе.


Добавить комментарий