Apache Hadoop 2.3.0 был выпущен с поддержкой кэширования в памяти и гетерогенной иерархии хранилищ для HDFS.
Добавление кэширования в памяти для HDFS означает, что вы можете выбрать кэширование определенных файлов или каталогов в HDFS, которые затем могут читать такие приложения, как MapReduce, Hive и Pig, без дополнительных затрат, связанных с обычным чтением с диска.
По словам Джастина Кестелина в блоге Cloudera, предварительные тесты показывают, что оптимизированные приложения могут достигать пропускной способности чтения порядка гигабайт в секунду.
Kestelyn сообщает: когда вы кешируете файл или каталог:
«DataNodes затем кэширует соответствующие блоки в памяти вне кучи с помощью mmap и mlock. После кэширования приложения Hadoop могут запрашивать расположение кэшированных блоков и размещать свои задачи в соответствии с местоположением в памяти. Наконец, когда локально в памяти, приложения могут использовать новый API чтения с нулевым копированием для чтения кэшированных данных без дополнительных накладных расходов ».
В своем блоге Hortonworks Арун Мурти говорит:
«Например, Hive использует эту функцию, реализуя чрезвычайно эффективный путь чтения с нулевым копированием для файлов ORC».
Другие основные моменты включают некоторую поддержку гетерогенного хранилища в HDFS с добавлением классов разнородного хранилища и упрощенное распространение двоичных файлов MapReduce через распределенный кэш YARN.
Разнородные классы хранилищ означают, что Hadoop теперь может использовать разные типы хранилищ в одних и тех же кластерах Hadoop, так что можно будет объединить сочетание твердотельных накопителей, памяти и разных типов дисков в одном кластере и позволить каждому приложению выбирать тип хранилища, который наилучшим образом соответствует требованиям к производительности или стоимости.
В Hortonworks есть интересная статья, в которой более подробно описаны гетерогенные хранилища в HDFS, а в своем блоге Арун Мурти говорит:
«Теперь мы можем найти лучший компромисс между стоимостью и выгодой с различными носителями, такими как стандартные диски, диски корпоративного уровня, твердотельные накопители, память и т. Д.»
Примечания к выпуску Hadoop 2.3.0 содержат подробную информацию о других изменениях и функциях.