Apache MADlib добавляет реализацию HITS


Появилась новая версия Apache MADlib с новыми функциями, включая реализацию HITS. MADlib позволяет выполнять машинное обучение больших данных с помощью SQL.

MADlib — это библиотека с открытым исходным кодом для масштабируемой аналитики в базе данных. Он обеспечивает параллельную реализацию математических, статистических методов и методов машинного обучения для структурированных и неструктурированных данных. В настоящее время он поддерживает PostgreSQL, Greenplum Database и Apache HAWQ. Это началось как сотрудничество между командой Калифорнийского университета в Беркли и разработчиками Pivotal. Pivotal ранее назывался EMC Greenplum. Проект был добавлен в Apache как инкубатор в 2015 году.

MADlib использует всю вычислительную мощность архитектуры MPP (Massively Parallel Processing) для обработки очень больших наборов данных, тогда как другие продукты ограничены объемом данных, которые могут быть загружены в память на одном узле. Он работает как полностью распараллеленная реализация на GPDB (Greenplum Database) и HAWQ для больших наборов данных, что означает, что он предлагает гораздо лучшую производительность, чем библиотеки R или Python. Он масштабируемый за счет возможности добавления дополнительных узлов для достижения более высокой производительности по мере масштабирования ваших данных. База данных Greenplum — это передовая, полнофункциональная платформа данных с открытым исходным кодом, предназначенная для анализа объемов данных петабайтного масштаба. HAWQ — это база данных MPP для расширенной аналитики Apache Hadoop Native SQL Advanced Analytics для предприятий, которая в настоящее время является проектом Apache Incubator.
Когда в августе 2017 года MADlib стал проектом высшего уровня, Джо Хеллерстайн, профессор компьютерных наук в Калифорнийском университете в Беркли, соучредитель и директор по стратегии Trifacta и один из первых авторов MADlib, сказал:
«MADlib с самого начала задумывался как площадка с открытым исходным кодом для разработчиков программного обеспечения, исследователей в области вычислительной техники и специалистов по данным для совместной работы над масштабируемым машинным обучением в базе данных и статистикой».
В новом выпуске MADlib 1.13 есть новый алгоритм анализа ссылок HITS (поиск тем по гиперссылкам). HITS позволяет анализировать ссылки для оценки веб-страниц.
Еще одно улучшение в новой версии — улучшенная обработка классификации k-ближайших соседей. k-NN в MADlib теперь имеет больше метрик расстояния и возможность отображать список соседей в выходной таблице.
В MLP (MultiLayer Perceptron) была добавлена поддержка группировки, а качество результатов корреляционного анализа было улучшено за счет игнорирования только значения NULL, а не всей строки, содержащей NULL.


Добавить комментарий