Hadoop добавляет кэширование в памяти


Apache Hadoop 2.3.0 был выпущен с поддержкой кэширования в памяти и гетерогенной иерархии хранилищ для HDFS.

Добавление кэширования в памяти для HDFS означает, что вы можете выбрать кэширование определенных файлов или каталогов в HDFS, которые затем могут читать такие приложения, как MapReduce, Hive и Pig, без дополнительных затрат, связанных с обычным чтением с диска.

По словам Джастина Кестелина в блоге Cloudera, предварительные тесты показывают, что оптимизированные приложения могут достигать пропускной способности чтения порядка гигабайт в секунду.

Kestelyn сообщает: когда вы кешируете файл или каталог:

«DataNodes затем кэширует соответствующие блоки в памяти вне кучи с помощью mmap и mlock. После кэширования приложения Hadoop могут запрашивать расположение кэшированных блоков и размещать свои задачи в соответствии с местоположением в памяти. Наконец, когда локально в памяти, приложения могут использовать новый API чтения с нулевым копированием для чтения кэшированных данных без дополнительных накладных расходов ».

В своем блоге Hortonworks Арун Мурти говорит:

«Например, Hive использует эту функцию, реализуя чрезвычайно эффективный путь чтения с нулевым копированием для файлов ORC».

Другие основные моменты включают некоторую поддержку гетерогенного хранилища в HDFS с добавлением классов разнородного хранилища и упрощенное распространение двоичных файлов MapReduce через распределенный кэш YARN.

Разнородные классы хранилищ означают, что Hadoop теперь может использовать разные типы хранилищ в одних и тех же кластерах Hadoop, так что можно будет объединить сочетание твердотельных накопителей, памяти и разных типов дисков в одном кластере и позволить каждому приложению выбирать тип хранилища, который наилучшим образом соответствует требованиям к производительности или стоимости.

В Hortonworks есть интересная статья, в которой более подробно описаны гетерогенные хранилища в HDFS, а в своем блоге Арун Мурти говорит:

«Теперь мы можем найти лучший компромисс между стоимостью и выгодой с различными носителями, такими как стандартные диски, диски корпоративного уровня, твердотельные накопители, память и т. Д.»

Примечания к выпуску Hadoop 2.3.0 содержат подробную информацию о других изменениях и функциях.


Добавить комментарий