Intel GraphBuilder Хорош Для Извлечения Знаний Из Больших Данных


Технологический центр Intel с открытым исходным кодом выпустил GraphBuilder, инструмент с открытым исходным кодом, который можно использовать для создания веб-структур для анализа больших данных.

GraphBuilder-это библиотека Java для построения графиков из больших наборов данных для анализа данных и структурированных приложений машинного обучения, которые используют связи в данных. Библиотека разгружает многие сложности построения графов, такие как формирование графов, табуляция, сжатие, преобразование, секционирование, форматирование выходных данных и сериализация. Он масштабируется с использованием модели параллельного программирования MapReduce. Основные компоненты библиотеки GraphBuilder и ее связь с Hadoop MapReduce показаны на этой диаграмме:

(Нажмите на диаграмму, чтобы увеличить ее)

GraphBuilder покажет скрытую структуру в больших данных. В своем блоге GraphBuilder главный научный сотрудник Intel Тед Уилке объясняет, что такие приложения, как Hadoop MapReduce, разделяют большие наборы данных на срезы и распределяют их по множеству машин для фильтрации, упорядочивания и преобразования. Такие системы не позволяют легко извлекать знания из другого типа структуры в данных, типа, который лучше всего моделируется древовидными или графовыми структурами, говорит Уилке:

“Представьте себе схему гиперссылок, соединяющих страницы Википедии, или связи между Твиттерами и подписчиками в Twitter. В этих моделях линия проводится между двумя битами информации, если они каким-то образом связаны друг с другом. Природа связи может быть менее очевидной, чем в этих примерах, и сделана специально для обслуживания определенного алгоритма.”

Исследовательская группа Intel обнаружила, что существует ряд систем, доступных для обработки, хранения, визуализации и разработки графиков, но не для их построения из неструктурированных источников. Имея это в виду, Intel решила разработать демонстрационную версию масштабируемой библиотеки построения графиков для Hadoop, и это стало GraphBuilder, которая была открыта на этой неделе в 01.org.

GraphBuilder не только быстро строит крупномасштабные графики, но и разгружает многие сложности построения графов, включая формирование графов, очистку, сжатие, секционирование и сериализацию. Уилке говорит, что это позволяет практически любому человеку легко создавать графики для интересных исследований и коммерческих приложений, и что с помощью GraphBuilder программист Java может построить график интернет-масштаба для PageRank примерно в 100 строках кода и график размером с Википедию для LDA примерно в 130 строках.


Добавить комментарий