Пользовательские функции для выполнения анализа данных в Hadoop с использованием Apache Pig были объединены в библиотеку с открытым исходным кодом под названием DataFu, любезно предоставленную группой разработчиков LinkedIn.
В сообщении в блоге, в котором объявляется о доступности DataFu, старший инженер-программист Мэтью Хейс объясняет, что LinkedIn широко использует Apache Pig для выполнения анализа данных в Hadoop.
Pig — это простой язык программирования высокого уровня, который состоит всего из нескольких десятков операторов и упрощает написание заданий MapReduce. Он должен стать более популярным, хотя бы по той причине, что вы вводите команды в приглашении Grunt>.
Pig был разработан так, что программы, написанные на нем, имеют структуру, которая может использовать параллельную обработку в большом масштабе, поэтому приложения могут обрабатывать очень большие наборы данных.
Хотя язык прост, вы можете написать свои собственные определяемые пользователем функции для добавления собственного кода на Java, Python и JavaScript в свои сценарии Pig.
Согласно блогу, когда команда LinkedIn работала над продуктами с большим объемом данных для LinkedIn, такими как «Люди, которых вы можете знать» и «Навыки», программисты разработали большое количество пользовательских функций, которые были объединены в одну общую целевая библиотека под названием DataFu, которую LinkedIn сделала с открытым исходным кодом.
DataFu включает в себя UDF для общих задач статистики, PageRank, операций над наборами, операций с пакетами и набора тестов. Мешок для свиней — это набор кортежей (упорядоченные наборы полей). Pig отличается от обычных реляционных баз данных тем, что у вас нет таблиц, у вас есть отношения pig, а кортежи соответствуют строкам в таблице. Однако отношения Pig не требуют, чтобы каждый кортеж содержал одинаковое количество полей или чтобы поля в одной позиции имели один и тот же тип. UDF в библиотеке позволяют выполнять операции с пакетами, такие как добавление кортежа, добавление кортежа, объединение пакетов и создание неупорядоченных пар.
Другие UDF дают вам возможность запускать PageRank на независимых графиках; для выполнения заданных операций, таких как пересечение и объединение, и для вычисления гаверсинусного расстояния между двумя точками на земном шаре.
Вы можете скачать библиотеку здесь: https://github.com/linkedin/datafu, а в сообщении блога приведены примеры использования некоторых функций для начала работы.
Связанные новости
Hadoop CTP для Azure
Hadoop переходит на 1.0
Поддержка Pig и Hadoop в Amazon Elastic MapReduce
Комментарии
Оставьте комментарий или просмотрите существующие комментарии с помощью Disqus