На саммите Hadoop в Брюсселе Google анонсировала новые облачные сервисы и инструменты анализа больших данных.
Диапазон начинается с облачного инструмента потока данных для анализа больших данных, который до сих пор был в частной альфа-программе. Облачный поток данных можно использовать для обработки потока на основе времени событий. Один и тот же конвейер может выполняться в пакетном режиме для снижения затрат или при анализе исторических данных.
Написав об объявлении в блоге Google Cloud Platform, Уильям Вамбенепе из Google сказал, что релиз означает, что:
“последовательная обработка потоковых данных в больших масштабах не должна быть сложной и хрупкой задачей, предназначенной для самых критических сценариев.»
К сервису могут получить доступ разработчики, использующие SDK на основе Java с открытым исходным кодом. Это можно использовать для запуска конвейеров в службе облачных потоков данных. Конвейеры инкапсулируют целую серию вычислений, которая принимает некоторые входные данные из некоторого внешнего источника, преобразует эти данные, чтобы обеспечить некоторую полезную информацию, и производит некоторые выходные данные. Шаблоны обработки могут использоваться в сценариях обработки данных, таких как анализ сеанса, обнаружение аномалий и анализ воронки.
Наряду с новым сервисом Google добавила новые функции в Google BigQuery и сделала его доступным в европейских зонах. BigQuery-это сервис Google, управляемый API для аналитики SQL, и новый выпуск улучшил безопасность и производительность, такие как разрешения на уровне строк, чтобы сделать обмен данными более гибким. Помимо возможности анализа структурированных данных, он поддерживает повторные записи и запросы внутри объектов JSON для слабо структурированных данных.
Последним элементом выпусков больших данных Google является сервис под названием Google Cloud Pub/Sub, который обеспечивает доставку событий в качестве полностью управляемой службы. В сообщении в блоге скромно говорится, что:
“Использование больших данных облачным способом не означает, что Hadoop, Spark, Flink и другие инструменты с открытым исходным кодом, изначально созданные для локальных приложений, не могут использоваться в облаке. Мы позаботились о том, чтобы вы могли воспользоваться богатством экосистемы больших данных с открытым исходным кодом с помощью встроенных соединителей для облачного хранилища Google и BigQuery, а также автоматизированного развертывания кластера Hadoop/Spark.”