Онлайн-курс по анализу больших данных от BerkeleyX на платформе edX начал повторное проведение на этой неделе с новым фокусом. Теперь он учит студентов программировать с использованием конвейеров машинного обучения Spark и DataFrames.
CS110x: Анализ больших данных с помощью Apache Spark — это четырехнедельный курс на промежуточном уровне, который открылся 15 августа 2016 г. и продолжался до 12 сентября и является преемником CS100.1x: Введение в большие данные с помощью Apache Spark и преследует ту же общую цель: студенты, чтобы узнать, как использовать Apache Spark для анализа данных. Однако, в то время как предыдущее воплощение было сосредоточено только на программировании Spark с использованием абстракции Spark нижнего уровня и парадигмы программирования устойчивых распределенных наборов данных, в новой версии показано, как использовать библиотеки машинного обучения Apache Spark для анализа больших данных с использованием DataFrames, Spark SQL и устойчивых распределенных наборов данных. . Это заинтересует студентов, которые прошли курс CS100.1x, но не знакомы с конвейерами машинного обучения Spark, а также новую группу студентов, впервые посещающих курс.
Курс ведет Энтони Д. Джозеф, который одновременно является профессором электротехники и информатики и техническим консультантом в Databricks. Предыдущая версия курса получила положительные оценки (в среднем 4,2 из 5 звезд), и было достигнуто согласие в том, что еженедельные лабораторные работы были ядром курса. Задания курса для этой версии включают в себя упражнения по прогнозированию с использованием алгоритмов машинного обучения, совместной фильтрации и распознаванию текстовых сущностей, которые учат студентов, как управлять наборами данных с помощью параллельной обработки с PySpark, Spark SQL и Spark Machine Learning Pipelines. Лабораторные упражнения составляют 84% оценок, остальные 16% — это тесты с несколькими вариантами ответов, и все задания должны быть выполнены до 12 сентября 2016 года.
Программа курса выглядит следующим образом:
Неделя 1: большие данные и наука о данных
Введение в большие данные и науку о данных — примеры того, как наука о данных может использовать большие данные, и узнать о рисках выполнения науки о данных без статистики
Выполнение науки о данных и подготовка данных — изучите определения и темы науки о данных, а также процесс сбора и подготовки данных, изучите статистику исследовательского анализа данных
Машинное обучение — узнайте о библиотеках машинного обучения Spark, машинном обучении и mllib
Лабораторная работа 1: Исследование и визуализация данных Power Plant Machine Learning Pipeline, узнайте о Spark Machine Learning Pipeline, а также примените и оцените несколько алгоритмов машинного обучения, чтобы ответить на бизнес-вопрос.
Неделя 2: Выполнение науки о данных
Роли в области науки о данных
Качество данных
Очистка данных
Статистический вывод — узнайте об оценке, смещении, изменчивости, распределении данных и центральной предельной теореме.
Лабораторная работа 2. Совместная фильтрация набора данных фильма.
Неделя 3: устойчивые распределенные наборы данных Apache Spark
Низкоуровневые примитивы Spark — узнайте об устойчивых распределенных наборах данных Spark, преобразованиях и действиях, а также общих переменных Spark
Производительность файлов — ознакомьтесь с рекомендациями по производительности операций чтения и записи файлов.
Лабораторная работа 3: Анализ текста и разрешение сущностей — анализ текста и разрешение сущностей в списках продуктов Google и Amazon с помощью Spark.
Неделя 4: Статистика
Статистика — узнайте об отношениях, ассоциациях, тенденциях, закономерностях, корреляции и регрессии.
Хотя CS110x можно брать отдельно, это вторая часть из трех курсов серии X. Вводный двухнедельный курс CS в настоящее время продолжается, но еще есть время, чтобы присоединиться к этой презентации с преимуществом ознакомления со средой PySpark и изучения основ.
Дискуссионный форум для этих классов находится на Piazza, и кажется, что это дружелюбная и поддерживающая среда с большим количеством положительных отзывов о курсе, особенно в лабораториях.