Было время, когда все, что вам было нужно, это реализация алгоритма искусственного интеллекта. Сегодня вам нужен тот, который может обрабатывать очень много данных. Mahout — именно такая библиотека. Он основан на Hadoop и доступна новая версия.
Библиотека Mahout — это набор алгоритмов ИИ, реализованных на Java и выпущенных в виде открытого исходного кода. Одной из его важных характеристик является то, что он масштабируемый, и многие из его алгоритмов используют Hadoop map / reduce.
В настоящее время у него есть четыре общих подхода — анализ рекомендаций, кластеризация, классификация и анализ «набора элементов». Извлечение рекомендаций и наборов элементов имеет прямое приложение к той разновидности веб-техники, которая становится настолько важной. Извлечение рекомендаций учитывает поведение пользователей и пытается найти другие элементы, которые могут им понравиться. При интеллектуальном анализе наборов предметов используются такие данные, как тележки для покупок, и делается попытка определить элементы, которые обычно встречаются вместе.
Версия 0.4 добавила новые алгоритмы, о которых стоит знать: спектральная кластеризация, кластеризация minhash, векторный классификатор, новый наивный байесовский классификатор и дополнения к процедурам обработки чисел, такие как распределенная реализация SVD Ланцоша.
Поскольку большинство алгоритмов реализовано поверх Hadoop, начать работу сложнее, чем с простой нераспределенной реализацией, но по мере увеличения набора данных вы можете просто добавить больше машин, не переписывая свое программное обеспечение. Вы можете начать с реализации Hadoop на одной машине.
Mahout — это не только отличный ресурс для исследований и обучения, но также может быть основой некоторых реальных систем на основе ИИ.
Связанное чтение:
Hadoop: полное руководство (рецензия на книгу)