Apache Hadoop 2 теперь доступен с поддержкой Apache YARN, фреймворка для планирования заданий и управления ресурсами кластера, а также с высокой доступностью файловой системы HDFS.
Фактически, это версия 2.2.0, но это первая стабильная версия в линейке 2.x. Самым большим изменением в новой версии распределенной среды хранения и анализа больших данных является поддержка YARN. YARN находится поверх HDFS (распределенной файловой системы Hadoop) и служит крупномасштабной распределенной операционной системой для приложений с большими данными, поэтому несколько приложений могут работать одновременно.
Это серьезное изменение в способе работы Hadoop. Предыдущие выпуски полагались на структуру MapReduce для управления разделением работы, а также управления ресурсами серверов. В новой версии YARN используется как менеджер ресурсов.
Архитектурный вид YARN (Источник: HortonWorks)
Принцип работы YARN заключается в разделении работы, выполняемой компонентом MapReduce JobTracker, на две части. JobTracker до сих пор управлял как управлением ресурсами, так и планированием / мониторингом заданий, но теперь они выполняются как два отдельных приложения: глобальный ResourceManager и ApplicationMaster, у которого есть отдельная копия для каждого запущенного приложения.
Если вы хотите узнать больше о YARN, Арун Мурти, менеджер по выпуску Apache Hadoop 2 и основатель Hortonworks, описывает это в серии информативных сообщений в блоге Hortonworks.
Это изменение открывает Hadoop, так что разработчики могут создавать приложения непосредственно в Hadoop, а не писать их для внешнего запуска, и представляет собой важное открытие Hadoop.
Наряду с появлением YARN аспект HDFS в Hadoop также был улучшен, с высокой доступностью для HDFS, поддержкой моментальных снимков HDFS, так что вы сможете использовать собственные процессы резервного копирования и аварийного восстановления. Возможность использовать файловую систему NFSv3 для доступа к данным в HDFS также делает Hadoop более «популярным», поскольку теперь его можно монтировать как стандартную файловую систему. Для защиты данных при передаче было добавлено собственное сетевое шифрование. Команда, стоящая за Hadoop, проделала большую работу по стабилизации API Hadoop. Наконец, Hadoop 2.2 также поддерживает его запуск в Microsoft Windows.