Google представила новую систему облачной аналитики под названием Cloud Dataflow, которая является преемником MapReduce.
MapReduce был основой аналитики данных Google в течение последних десяти лет, позволяя им обрабатывать массивные наборы данных с использованием распределенных вычислений, но теперь он заменяется чем — то лучшим.
Выступая на конференции разработчиков ввода-вывода в Сан-Франциско, старший вице-президент Google по технической инфраструктуре Урс Хельцле сказал, что, как только объем анализируемых данных достиг нескольких петабайт, MapReduce стал слишком громоздким, заявив в своей основной презентации: “Мы больше не используем MapReduce”, добавив, что Google перестал использовать MapReduce для аналитики “много лет назад.”
По словам Хельцле, причины отказа Google от MapReduce заключаются в том, что MapReduce затрудняет быстрое получение данных. Для анализа с его использованием требуется множество различных технологий, пакетная обработка и потоковая передача не связаны, и всегда требуется развертывание и работа кластеров MapReduce.
Вместо этого Google теперь использует Google Cloud Dataflow. Согласно блогу Google Cloud Platform, это:
“полностью управляемый сервис для создания конвейеров данных, которые принимают, преобразуют и анализируют данные как в пакетном, так и в потоковом режимах. Облачный поток данных является преемником MapReduce и основан на наших внутренних технологиях, таких как Flume и MillWheel.”
Flume позволяет Google легче создавать сложные конвейеры данных, которые обрабатывают весь процесс сбора, очистки и анализа пакетных данных. В облачном потоке данных Flume был объединен с MillWheel, который внутренне используется для потоковой обработки, анализа данных почти в режиме реального времени, когда они поступают в Google.
Облачный поток данных позволит вам создавать и оптимизировать конвейеры данных, создавать мобильные приложения, а также отлаживать, отслеживать и отслеживать облачные приложения в рабочей среде. Облачный поток данных можно использовать для таких задач, как ETL (извлечение нагрузки преобразования), пакетная обработка данных и потоковая аналитика, и он автоматически оптимизирует, развертывает и управляет требуемым кодом и ресурсами.
Хельцле сказал в своем выступлении, что “Облачный поток данных является результатом более чем десятилетнего опыта в области анализа данных.” Он добавил, что “он будет работать быстрее и масштабироваться лучше, чем любая другая система.” Демонстрации во время основного доклада включали анализ твитов, опубликованных о матчах чемпионата мира по футболу.
На конференции были также анонсированы другие инструменты в этом диапазоне. Google Cloud Trace можно использовать для поиска узких мест в производительности. Он основан на концепциях DTrace (первоначально разработанных Sun Microsystems), но был полностью разработан в Google. Cloud Save-это API, который означает, что ваши приложения могут сохранять данные пользователя в облаке и использовать их без необходимости кодирования на стороне сервера. Данные хранятся в облачном хранилище данных Google, что делает их доступными из Google App Engine или Google Compute Engine с использованием существующего API хранилища данных. Google Cloud Save в настоящее время находится в закрытой бета-версии и скоро будет доступен для общего использования.
Также были представлены облачные приложения для отладки, отслеживания и мониторинга. Облачная трассировка предоставляет статистику задержек и аналитические отчеты по различным группам, в то время как облачный мониторинг-это интеллектуальная система мониторинга, которая использует функции Stackdriver, службы облачного мониторинга, которую Google приобрела несколько месяцев назад.
Вы можете отслеживать ресурсы облачной инфраструктуры, такие как диски и виртуальные машины, а также уровни обслуживания служб Google. В сообщении в блоге говорится::
“Облачный мониторинг предоставляет богатые показатели, информационные панели и оповещения для облачной платформы, а также более десятка популярных приложений с открытым исходным кодом, включая Apache, Nginx, MongoDB, MySQL, Tomcat, IIS, Redis, Elasticsearch и многое другое. Например, вы можете использовать облачный мониторинг для выявления и устранения неполадок в случаях, когда пользователи испытывают повышенную частоту ошибок при подключении из модуля App Engine или медленное время запросов из базы данных Cassandra с минимальной конфигурацией.”
Облачный отладчик предоставляет вам полную трассировку стека и моментальные снимки всех локальных переменных для любой точки наблюдения, заданной в коде, в то время как приложение продолжает работать без помех в рабочей среде.
Вот полный лейтмотив от Google I/O, который длится два с половиной часа.
Презентация Урса Хельцле начинается в 1:55:38, а его объявление об облачном потоке данных-в 2:08:24.