Databricks добавила функцию экспорта моделей машинного обучения, которую можно использовать для экспорта моделей из Apache Spark MLib.
Рубрика: Большие данные
Kylin 2.3.0 добавляет поддержку SQL Server
Apache Kylin был обновлен до новой версии, которая поддерживает SparkSQL при построении промежуточных плоских таблиц Hive. Также есть новая структура метрик на основе Dropwizard и планировщик кубов, который может выбирать наиболее экономичные кубоиды для построения.
3 лучших языка для программирования больших данных
R, Python и Scala — три основных языка для науки о данных и интеллектуального анализа данных. Здесь вы узнаете об их популярности, простоте использования, а также о некоторых плюсах и минусах. Однако перед этим необходимо обсудить важную связь между хранилищами данных и большими данными.
Read more «3 лучших языка для программирования больших данных»
Twitter Heron пожертвовал Apache
Twitter Heron, платформа потоковой передачи и аналитики Twitter в реальном времени, была передана в дар программе Apache Incubator. Исходный код Heron был открыт в 2016 году, и он используется для обработки миллиардов событий, генерируемых в Twitter каждый день.
IDE Visual Spark Studio для приложений Spark
Выпущена новая бесплатная IDE, которая позволяет создавать, тестировать и запускать приложения Apache Spark на вашем рабочем столе. Visual Spark Studio — это бесплатная урезанная версия платформы Impetus StreamAnalytix. Он предоставляет легкий инструмент разработки для обработки и анализа данных Spark.
Apache Beam переходит на Java 8
Apache Beam, пакет SDK для программирования с открытым исходным кодом для определения конвейеров пакетной и потоковой параллельной обработки данных, теперь доступен в новой версии, которая переходит на Java 8 и Spark 2.x.
MapR выпускает контейнер Docker для локальной разработки
MapR выпустила контейнер Docker, состоящий из Drill, Apache Spark, файловой системы MapR и MapR-DB, который предоставляет действительно полезный вариант для любого разработчика, которому нужен простой способ опробовать разработку больших данных.
Read more «MapR выпускает контейнер Docker для локальной разработки»
Выпущен Kafka Webview
Выпущен новый веб-интерфейс для чтения данных из Kafka Clusters. Kafka Webview можно использовать для чтения данных из тем Kafka и предоставления базовых возможностей фильтрации и поиска.
Apache Samza добавляет SQL
Есть новая версия Apache Samza, которая добавляет Samza SQL, а также Azure EventHubs и AWS Kinesis. Samza — это фреймворк с открытым исходным кодом, первоначально разработанный вместе с Kafka компанией LinkedIn, прежде чем он был сделан с открытым исходным кодом и передан Apache Software Foundation.
HBase 1.4 с новым затененным клиентом
Apache выпустил обновленную версию HBase с новым закрашенным клиентом, предназначенным для улучшения совместимости, наряду с улучшениями клиента REST, расширенными возможностями автоматического перезапуска и улучшениями показателей RegionServer.