Вышел новый выпуск Hadoop с улучшениями, включая поддержку кодирования HDFS Erasure, предварительную версию v2 службы временной шкалы YARN и улучшения федерации YARN / HDFS.
Hadoop — это платформа, которая может использоваться для обработки больших наборов данных в кластерах компьютеров с использованием простых моделей программирования. YARN — это платформа для планирования заданий и управления ресурсами кластера, а также высокая доступность файловой системы HDFS.
Объединение YARN используется для масштабирования отдельных кластеров YARN до десятков тысяч узлов путем объединения нескольких подкластеров YARN.
Эндрю Ван, менеджер по выпуску Apache Hadoop 3, описал новый выпуск как важную веху для проекта и самый крупный выпуск Hadoop за всю историю.
Добавление кодирования стирания HDFS должно сделать данные более надежными и уменьшить объем хранилища, необходимый для HDFS. Схема трехкратной репликации по умолчанию в HDFS предполагает 200-процентные накладные расходы на пространство хранения и другие ресурсы, такие как пропускная способность сети. Для многих наборов данных с относительно низкой активностью ввода-вывода дополнительные блочные реплики редко доступны во время обычных операций, но по-прежнему потребляют столько же ресурсов, что и первая реплика. Если вместо репликации используется Erasure Coding, накладные расходы на хранилище не превышают 50 процентов. HDFS Erasure Coding использует RAID, в котором Erasure Coding реализовано с помощью зачистки. Это логически сохраняет данные в форме блока и сохраняет блок на другом диске. Для каждого блока вычисляется и сохраняется четность. Это кодировка, и любую ошибку можно исправить обратным вычислением с использованием четности.
Новый выпуск также включает предварительную версию YARN Timeline Service v.2, которая предлагает лучшую масштабируемость, надежность и удобство использования Timeline Service. Служба отвечает за сохранение информации о приложении и за сохранение общей информации о завершенных приложениях.
Также была добавлена поддержка типов ресурсов YARN, что позволяет планировать дополнительные ресурсы, такие как диски и графические процессоры, для лучшей интеграции с машинным обучением и рабочими нагрузками контейнеров.
Другие улучшения включают возможность прозрачного объединения подкластеров YARN и HDFS; и гибкое выполнение контейнеров для улучшения использования ресурсов и увеличения пропускной способности для краткосрочных контейнеров. Также была улучшена поддержка облачных систем хранения, таких как Amazon S3 и Azure Data Lake.