Apache Gobblin достиг статуса высшего уровня


Apache объявил, что Gobblin, среда интеграции распределенных данных с открытым исходным кодом для упрощения интеграции больших данных, достигла статуса проекта верхнего уровня.

Apache Gobblin — это среда интеграции распределенных данных, которая упрощает общие аспекты интеграции больших данных, такие как прием данных, репликация, организация и управление жизненным циклом как для потоковых, так и для пакетных экосистем данных.

Gobblin был разработан LinkedIn для интеграции данных. LinkedIn хранит сотни терабайт внутренних и внешних данных в день, включая зависящие от времени события Kafka, генерируемые, когда участники совершают определенные действия, такие как просмотр страницы, создание сообщения или комментирование чужого сообщения.

Gobblin используется для объединения внешних и внутренних наборов данных в одно центральное хранилище данных для аналитики (HDFS). LinkedIn сделал Gobblin открытым исходным кодом в 2015 году, а в феврале 2017 года он вошел в инкубатор Apache. За это время LinkedIn продолжал развиваться, и теперь проект вошел в статус высшего уровня Apache.

Gobblin можно использовать для приема и экспорта данных из различных источников, а также для приема и вывода данных из озера данных. Он оптимизирован и разработан для шаблонов ELT со встроенными преобразованиями при захвате.

Gobblin также организует данные в озере посредством сжатия, разделения и дедупликации, а также осуществляет управление жизненным циклом с точки зрения хранения данных. Его также можно использовать для задач, включая удаление мелкозернистых данных.

Помимо LinkedIn, Gobblin уже работает в масштабе петабайтов в компаниях, включая PayPal и Verizon, и доступен как услуга, поддерживающая программный запуск и оркестровку операций плоскости данных.

Помимо объявления о статусе верхнего уровня, LinkedIn анонсировала новую эволюцию Gobblin под названием «FastIngest», которая улучшает скорость и эффективность приема, а также производительность запросов. В рамках обновления LinkedIn разработал новый Gobblin Pipeline, основанный на потоковой передаче, который сокращает задержку приема с 45 до 5 минут.


Добавить комментарий