Есть новый проект Hadoop для создания фреймворков глубокого обучения, таких как TensorFlow, на Apache Hadoop. Submarine имеет интеграцию с Zeppelin и Azkaban для выполнения заданий.
Навыки глубокого обучения становятся все более востребованным товаром, и этот курс глубокого обучения является хорошей отправной точкой. Hadoop — это платформа, которая может использоваться для обработки больших наборов данных в кластерах компьютеров с использованием простых моделей программирования. Новый проект направлен на улучшение поддержки использования глубокого обучения для анализа данных Hadoop. Чтобы лучше понять его потенциал, ознакомьтесь с этим обучением Big Data Hadoop.
Цель Hadoop Submarine — упростить запуск, управление и мониторинг распределенных приложений глубокого обучения / машинного обучения, созданных в таких фреймворках, как TensorFlow. Другие улучшения наряду с Submarine включают улучшенную поддержку графического процессора, поддержку контейнеров Docker, поддержку DNS-контейнеров и улучшения планирования.
Разработчики заявляют, что эти улучшения упрощают запуск распределенных приложений глубокого обучения / машинного обучения на Apache Hadoop YARN, как и запускать такие приложения локально. Пользователи смогут выполнять рабочие нагрузки глубокого обучения с другими заданиями ETL / потоковой передачи, выполняемыми в том же кластере.
Проект Submarine состоит из двух частей: вычислительного движка Submarine и набора подключаемых модулей и инструментов для интеграции подводной экосистемы.
Механизм вычислений отправляет настроенные приложения глубокого обучения (например, Tensorflow, Pytorch и т. Д.) В YARN из командной строки. Эти приложения работают бок о бок с другими приложениями в YARN, такими как Apache Spark и Hadoop Map / Reduce.
Набор интеграций находится на вершине вычислительного механизма. Текущий список добавляет интеграцию между Submarine и Zeppelin, а также между Submarine и Azkaban.
Интеграция с Zeppelin означает, что специалисты по обработке данных могут кодировать в записных книжках Zeppelin и отправлять и управлять учебными заданиями прямо из записной книжки. Zeppelin — это веб-блокнот, который поддерживает интерактивный анализ данных с помощью SQL, Scala и Python. для создания основанных на данных интерактивных документов для совместной работы. В Zeppelin есть более 20 интерпретаторов, охватывающих такие продукты, как Spark, Hive, Cassandra, Elasticsearch, Kylin и HBase для сбора данных, очистки данных, извлечения функций и т. Д. Их можно использовать вначале, затем можно будет использовать обучение модели машинного обучения. на чистых данных.
Азкабан — это служба планирования пакетного рабочего процесса. Он был разработан в LinkedIn для выполнения заданий Hadoop. Azkaban решает задачи заказа через зависимости заданий и предоставляет простой в использовании веб-интерфейс пользователя для поддержки и отслеживания рабочих процессов. Интеграция с Submarine означает, что специалист по данным может отправлять набор задач с зависимостями прямо в Азкабан из записных книжек.
Разработчики заявляют, что общая цель проекта Hadoop Submarine — предоставить возможности сервисной поддержки алгоритмов глубокого обучения для данных (сбор данных, обработка данных, очистка данных), алгоритмов (интерактивное, визуальное программирование и настройка), планирования ресурсов, алгоритмов. публикация моделей и планирование работ.
Использование Zeppelin заботится о данных и алгоритме, а добавление в Azkaban обрабатывает планирование заданий. Планируется, что набор инструментов, состоящий из трех частей: Zeppelin, Hadoop Submarine и Azkaban, предоставит открытую и готовую к использованию платформу для разработки глубокого обучения.