Если вы хотите применить методы науки о данных с использованием параллельного программирования, в Apache Spark вас заинтересует курс edX, который начинается в понедельник, 1 июня, который готовит вас к экзамену на сертифицированного разработчика Spark.
CS 100.1x Введение в большие данные с Apache Spark — это 5-недельный курс среднего уровня под эгидой UC BerkeleyX, онлайн-курса Беркли, спонсируемый Databricks, компанией, основанной создателями Apache Spark.
Его будет вести Энтони Д. Джозеф, который одновременно является профессором электротехники и информатики и техническим консультантом в Databricks.
При требуемых усилиях 5-7 часов в неделю (всего около 30 часов) студенты будут изучать:
Узнайте, как использовать Apache Spark для анализа данных
Как использовать параллельное программирование для изучения наборов данных
Применяйте анализ журналов, распознавание текстовых сущностей и совместную фильтрацию к реальным вопросам данных
Подготовьтесь к экзамену на сертифицированного разработчика Spark
Экзамен Spark Certified Developer предлагается Databricks совместно с O’Reilly по цене 300 долларов. Его можно принимать лично во время сессий на мероприятиях Strata или онлайн с вашего компьютера.
Эта сертификация позволяет:
Продемонстрируйте признанное в отрасли подтверждение вашего опыта.
Соответствие мировым стандартам, необходимым для обеспечения совместимости приложений и дистрибутивов Spark.
Будьте в курсе последних достижений и обучения в Spark.
Станьте неотъемлемой частью растущего сообщества разработчиков Spark.
Конечно, вам не нужно проходить эту сертификацию, и вы можете использовать этот MOOC, просто чтобы расширить свои знания в области науки о данных. Он является частью двухмодульной XSeries для больших данных, а второй модуль — CS 190.1x: Scalable Machine Learning, который начинается 29 июня.
По рубрике:
Этот курс попытается сформулировать ожидаемый результат специалистов по данным, а затем научит студентов, как использовать PySpark (часть Apache Spark), чтобы оправдать эти ожидания. Задания курса включают в себя упражнения по интеллектуальному анализу журналов, распознаванию текстовых сущностей и совместной фильтрации, которые учат студентов управлять наборами данных с помощью параллельной обработки с помощью PySpark.
Поскольку все упражнения будут использовать PySpark (часть Apache Spark), вам потребуется либо опыт работы с Python, либо бесплатный онлайн-мини-курс Python, предоставляемый Калифорнийским университетом в Беркли.