Google Open Sources C / C ++ MapReduce Framework


MapReduce Framework для C (MR4C) позволит вам запускать собственный код в Hadoop, позволяя использовать библиотеки обработки изображений, разработанные на C и C ++, для данных, хранящихся в Hadoop.

Эта структура была первоначально разработана в Skybox Imaging, компании, занимающейся созданием спутниковых изображений, которую Google приобрела в июне 2014 года для обработки крупномасштабных спутниковых изображений и исследования геопространственных данных. Существует ряд проприетарных систем, которые выполняют собственный код в инфраструктурах MapReduce, но MR4C спроектирован так, чтобы быть более гибким, и, поскольку он является открытым исходным кодом, его можно свободно использовать и развивать.

Согласно сообщению в блоге Тая Кеннеди-Боудоина о выпуске, MR4C имеет несколько простых концепций, которые упрощают перенос вашего собственного кода в Hadoop. Алгоритмы хранятся в собственных общих объектах, которые обращаются к данным из локальной файловой системы или любого унифицированного идентификатора ресурса (URI), в то время как наборы данных ввода / вывода, параметры времени выполнения и любые внешние библиотеки настраиваются с использованием файлов JavaScript Object Notation (JSON). Разделение сопоставителей и распределение ресурсов можно настроить с помощью инструментов на основе Hadoop YARN или на уровне кластера для MRv1.

Вы также можете объединить рабочие процессы нескольких алгоритмов вместе, используя автоматически сгенерированную конфигурацию. Существуют обратные вызовы для ведения журнала и отчетов о ходе выполнения, а отчеты можно просматривать с помощью интерфейса Hadoop JobTracker. Ваш рабочий процесс может быть построен и протестирован на локальном компьютере с использованием того же интерфейса, что и в целевом кластере.

В сообщении блога говорится, что цель этого проекта — абстрагироваться от важных деталей инфраструктуры MapReduce и позволить пользователям сосредоточиться на разработке ценных алгоритмов.


Добавить комментарий