Учебник Mining of Massive Datasets, написанный для продвинутого курса аспирантуры, преподаваемого в Стэнфордском университете, был предоставлен для бесплатного скачивания его авторами, Анандом Раджармой и Джеффри Д. Уллманом.
В книге основное внимание уделяется интеллектуальному анализу данных настолько больших, что они не помещаются в основную память, и используются примеры данных, полученных из Интернета. Его подход заключается в применении алгоритмов к данным, а не в использовании машинного обучения.
Согласно предисловию, основные темы:
Распределенные файловые системы и map-reduce как инструмент для создания параллельных алгоритмов, которые работают с очень большими объемами данных.
Поиск по сходству, включая ключевые методы мини-хеширования и хеширования с учетом местоположения.
Обработка потока данных и специализированные алгоритмы для работы с данными, которые поступают так быстро, что должны быть немедленно обработаны или потеряны.
Технологии поисковых систем, включая Google PageRank, обнаружение ссылочного спама и подход хабов и властей.
Анализ часто встречающихся элементов, включая правила ассоциации, рыночные корзины, алгоритм A-Priori и его улучшения.
Алгоритмы кластеризации очень больших многомерных наборов данных.
Две ключевые проблемы для веб-приложений: управление рекламными системами и системами рекомендаций.
Хотя это академический текст, он написан в доступном стиле, что делает его подходящим для других читателей, обладающих знаниями SQL, структур данных, алгоритмов и программных систем.
Если вас интересуют большие данные, это необходимо, и, учитывая, что это бесплатно, цена тоже подходящая.
Вы можете прочитать его в Интернете (HTML) или загрузить в формате PDF.
Загрузите его с:
http://infolab.stanford.edu/~ullman/mmds.html