Был выпущен Apache Spark 2.2, в котором структурированная потоковая передача больше не является экспериментальной. Соответствующий выпуск PySpark также доступен в pypi.
Read more «Apache Spark со структурированной потоковой передачей»
Был выпущен Apache Spark 2.2, в котором структурированная потоковая передача больше не является экспериментальной. Соответствующий выпуск PySpark также доступен в pypi.
Read more «Apache Spark со структурированной потоковой передачей»
В новой статье, блестяще приуроченной к началу новой серии Игры престолов, мы анализируем ее главных героев с точки зрения теории сетей.
Grimoire Lab — это набор инструментов с открытым исходным кодом, созданный на Python, Elasticsearch и Kibana. Он подключается к необработанным данным GitHub через Perceval, модуль, предназначенный для извлечения данных из репозиториев, связанных с разработкой программного обеспечения.
Stack Overflow содержит множество данных, отражающих уровень интереса к языкам и технологиям программирования. Теперь это простой в использовании инструмент для самостоятельного исследования и анализа тенденций за почти десятилетие.
Read more «Изучите свою любимую тему с помощью интерактивного инструмента тренда Stack Overflow»
Музыка важна, но знаем ли мы, как ее слушают? Это зависит от них или от жанра, который они слушают? И действительно важный вопрос — сколько треков нужно сыграть диджею, чтобы все были довольны?
Слухи о том, что Google приобретает сообщество специалистов по анализу данных Kaggle, подтвердились вчера на конференции Google Cloud Next. Это дает преимущество возможности хранить и запрашивать большие наборы данных и прямой доступ к облачной среде машинного обучения Google.
Есть новая версия Apache Arrow, которая описывается как важная веха для проекта. Apache Arrow — это столбчатый слой аналитики в памяти, который разрешает произвольный доступ.
Read more «Apache Arrow добавляет двоичный формат потоковой передачи»
Выпущена новая версия Apache Kafka с новым API Kafka Streams для окон сеансов и улучшенной совместимостью для клиентов Java. Apache Kafka — это распределенная потоковая платформа, которую можно использовать для создания конвейеров потоковой передачи данных в реальном времени между системами или приложениями.
Google снял серьезное ограничение с бесплатной версии Data Studio, ее инструмента для создания панелей управления и отчетности. До сих пор бесплатная версия была ограничена созданием пяти отчетов, но теперь вы можете создавать и публиковать столько отчетов, сколько захотите.
Apache Beam, инструмент распределенной обработки с унифицированной моделью программирования для пакетной и потоковой обработки данных, получил статус высшего уровня как проект Apache.