Демонстрация Elastic MapReduce Показывает, как обрабатывать большие наборы данных


Amazon WebServices опубликовала на YouTube видео, в котором показано, как можно начать использовать Elastic MapReduce для быстрой обработки больших наборов данных.

Вебинар, который длится около 50 минут, показывает, как настроить поток заданий Elastic MapReduce (EMR) для анализа журналов приложений, а затем показывает, как выполнять запросы Hive к нему. EMR-это веб-сервис от Amazon, который можно использовать для обработки очень больших объемов данных. Он использует размещенную платформу Hadoop, работающую на Amazon Elastic Compute Cloud (Amazon EC2) и Amazon Simple Storage Service (Amazon S3). Это означает, что вы можете предоставить столько ресурсов, сколько вам нужно для таких задач, как веб-индексация или интеллектуальный анализ данных.

Вам не нужно беспокоиться о настройке, управлении или настройке кластеров Hadoop, служба позаботится об этой стороне вещей. Вы можете запустить большие потоки заданий Hadoop, запустить обработку за считанные минуты, и как только поток заданий завершится, служба разорвет ваши экземпляры, если вы не скажете ей иначе.

Поток заданий состоит из шагов, которые управляют данными. Каждый шаг представляет собой приложение Hadoop MapReduce, реализованное в виде Java jar или потоковой программы, написанной на Java, Ruby, Perl, Python, PHP, R или C++. Например, чтобы подсчитать частоту, с которой слова появляются в документе, и вывести их отсортированными по количеству, первым шагом будет приложение MapReduce, которое подсчитывает вхождения каждого слова, а вторым шагом будет приложение MapReduce, которое сортирует выходные данные с первого шага на основе количества.

Интерфейсы веб — служб позволяют создавать рабочие процессы обработки и программно отслеживать ход выполнения потоков заданий. Вы также можете создавать приложения, используя такие функции, как планирование, рабочие процессы и мониторинг.

Вебинар показывает лучшие способы организации файлов данных в Amazon Simple Storage Service (S3), а затем показывает, как можно запускать кластеры из веб-консоли AWS и командной строки, а также как отслеживать состояние задания Map/Reduce. Последняя часть демонстрации показывает, как Hive предоставляет среду, подобную SQL. Hive-это хранилище данных и аналитический пакет Apache с открытым исходным кодом, с которым вы работаете с использованием языка на основе SQL. Hive выходит за рамки стандартного SQL с дополнительными функциями map/reduce и поддержкой пользовательских типов данных, таких как Json и Thrift.


Добавить комментарий