Выпущена Spark 1.4


Spark 1.4 был выпущен с R API, ориентированным на специалистов по данным.

В новой версии также добавлены новые функции в Spark DataFrame API. Spark — это механизм обработки данных с открытым исходным кодом. Он поставляется с поддержкой ETL, интерактивных запросов (SQL), расширенной аналитики, такой как машинное обучение, и потоковой передачи больших наборов данных.

R API, SparkR, можно использовать для создания кадров данных SparkR из «локальных» кадров данных R или из любого источника данных Spark, например Hive, HDFS, Parquet или JSON. SparkR DataFrames поддерживают все операции Spark DataFrame, включая агрегирование, фильтрацию, группировку, сводную статистику и другие аналитические функции. Они также поддерживают смешивание SQL-запросов и преобразование результатов запросов в DataFrames и обратно.

Описывая новую версию в блоге Databricks Spark, Патрик Венделл говорит, что, поскольку SparkR использует параллельный движок Spark, операции используют преимущества нескольких ядер или нескольких машин и могут масштабироваться до размеров данных, намного превышающих отдельные R-программы.

Наряду с R API в новом выпуске добавлены оконные функции в Spark SQL и в библиотеку Spark DataFrame, что позволяет вычислять статистику по диапазонам окон. Разработчики добавили ряд новых функций для DataFrames, включая расширенную поддержку статистики и математических функций (генерация случайных данных, описательная статистика и корреляции, а также таблицы непредвиденных обстоятельств), а также функции для работы с отсутствующими данными.

Project Tungsten также поставляется с этой версией Spark. Project Tungsten предназначен для быстрого выполнения операций Dataframe, и в этой версии есть только начальные части с дополнительными функциями, которые будут добавлены в будущем. В текущем выпуске используется память сериализатора и есть опции для быстрого бинарного агрегирования.

API конвейеров машинного обучения (ML), представленный в Spark 1.2, был изменен с альфа-версии на версию, которая будет стабильной в будущем. Использование конвейеров означает, что пользователи могут настраивать рабочие нагрузки машинного обучения, которые включают в себя множество этапов, таких как предварительная обработка данных, извлечение и преобразование функций, подгонка модели и этапы проверки. В API конвейеров также были добавлены новые функции с преобразователями функций, такими как RegexTokenizer, OneHotEncoder и VectorAssembler, и новыми алгоритмами, такими как линейные модели с эластичными сетками и моделями деревьев.

Другим важным усовершенствованием Spark является добавление утилит визуальной отладки и мониторинга, дающих разработчикам визуальное представление о поведении приложений Spark во время выполнения, а также средства просмотра временной шкалы приложений, которое профилирует завершение этапов и задач внутри выполняющейся программы.

Венделл говорит, что Spark 1.4 также предоставляет визуальное представление базового графа вычислений (или «DAG»), который напрямую привязан к показателям физического выполнения.


Добавить комментарий