Amazon объявила о поддержке запуска потоков заданий с использованием Hadoop 0.20.205 и Pig 0.9.1 в Amazon Elastic MapReduce.
Elastic MapReduce-это веб-сервис, который можно использовать для обработки больших объемов данных. Он использует размещенную платформу Hadoop, работающую на инфраструктуре веб-масштаба Amazon Elastic Compute Cloud (Amazon EC2) и Amazon Simple Storage Service (Amazon S3).
Библиотека программного обеспечения Apache Hadoop — это платформа, которую можно использовать для распределенной обработки больших наборов данных между кластерами компьютеров с использованием простой модели программирования. Apache Pig-это аналитический пакет с открытым исходным кодом, который работает поверх Hadoop.
Pig-это интересный пакет для работы; вы пишете свои запросы на языке, похожем на SQL, под названием Pig Latin, чтобы предоставить пользователям возможность обобщать и запрашивать источники данных, хранящиеся в Amazon S3.
Pig Latin также включает функции map/reduce и сложные расширяемые пользовательские типы данных, поэтому вы можете создавать запросы, которые можно использовать для сложных и неструктурированных источников данных, таких как текстовые документы.