Yahoo делает CaffeOnSpark доступным для разработчиков с открытым исходным кодом. Программное обеспечение для глубокого обучения используется Yahoo для получения аналитических данных из огромных объемов онлайн-данных.
CaffeOnSpark уже некоторое время используется Yahoo для внутренних целей, в том числе для повышения точности распознавания изображений на Flickr. Команды Flickr использовали CaffeOnSpark для обучения Flickr, используя миллионы фотографий из набора данных Yahoo Webscope Flickr Creative Commons 100M на кластерах Hadoop.
CaffeOnSpark — это пакет глубокого обучения Spark, который заполняет пробел в Spark MLib, поддерживая фреймы данных, чтобы упростить взаимодействие с сгенерированным Spark набором обучающих данных и извлекать прогнозы из модели в качестве результатов или для анализа данных с использованием MLLib или SQL. MLlib — это библиотека машинного обучения (ML) Spark, состоящая из общих алгоритмов обучения и утилит, включая классификацию, регрессию, кластеризацию, совместную фильтрацию и уменьшение размерности.
Преимущество CaffeOnSpark перед существующими структурами DL состоит в том, что большинству других платформ требуется отдельный кластер для глубокого обучения, а также несколько программ для создания конвейера машинного обучения.
Использование отдельных кластеров означает, что большие наборы данных должны передаваться между кластерами, а конвейеры добавляют дополнительную сложность системы и задержку. Напротив, проект Yahoo позволяет проводить глубокое обучение в том же кластере вместе с существующими конвейерами обработки данных.
Проект выпускается на Github:
«продвигать области глубокого обучения и искусственного интеллекта»
согласно сообщению в блоге команды разработчиков. CaffeOnSpark можно протестировать в облаке AWS EC2 или в ваших собственных кластерах Spark. Релиз с открытым исходным кодом следует за несколькими другими выпусками машинного обучения, такими как Google TensorFlow, Microsoft Computational Network Toolkit и проект Torch AI от Facebook.