Обновления Amazon Redshift


Amazon объявила о ряде обновлений Redshift, своей облачной службы хранилища данных.

Данные Redshift можно анализировать с помощью «обычных» инструментов на основе SQL и приложений бизнес-аналитики, и они разработаны таким образом, чтобы их было легко настроить и управлять — кластеры можно настроить с помощью нескольких щелчков мышью в Консоли управления AWS. Запросы можно распределять и распараллеливать между несколькими узлами. Amazon автоматизировал большинство стандартных административных задач, связанных с инициализацией, настройкой, мониторингом, резервным копированием и защитой хранилища данных, чтобы упростить администрирование Redshift. Redshift основан на технологии ParAccel от Actian (ранее известной как Ingres), которую Amazon приобрела в 2013 году.

Обновления, анонсированные на конференции Amazon Re: Invent, начинаются с поддержки экспорта озера данных в формате Apache Parquet. Теперь вы можете выгрузить результат запроса Amazon Redshift в озеро данных Amazon S3 как Apache Parquet. Формат Parquet выгружается в два раза быстрее и использует до шести раз меньше хранилища в Amazon S3 по сравнению с текстовыми форматами.

Следующее улучшение, о котором будет объявлено, — это предварительная версия поддержки федеративных запросов. Функция Amazon Redshift Federated Query позволяет запрашивать и анализировать данные в операционных базах данных, хранилищах данных и озерах данных. С помощью Federated Query теперь вы можете интегрировать запросы к оперативным данным в Amazon RDS для PostgreSQL и Amazon Aurora PostgreSQL с запросами в средах Amazon Redshift и Amazon S3.

Еще одно усовершенствование запросов в Redshift — это предварительная версия Advanced Query Accelerator (AQUA) для Amazon Redshift. Это новый распределенный кэш с аппаратным ускорением, который, по словам Amazon, означает, что Redshift может работать в десять раз быстрее, чем любое другое облачное хранилище данных. AQUA пытается избежать узких мест, связанных с перемещением данных из централизованного хранилища в вычислительные кластеры для обработки, где пропускная способность сети, необходимая для перемещения данных, может быть узким местом. Вместо этого AQUA выполняет значительную часть обработки данных на месте в своей кэш-памяти с аппаратным ускорением. Задачи с большим объемом данных, такие как фильтрация и агрегирование, выполняются ближе к уровню хранения, что сводит к минимуму перемещение данных между местом хранения данных и вычислительными кластерами.

Последнее улучшение Redshift — поддержка материализованных представлений — опять же, это предварительная версия. Материализованные представления могут ускорить выполнение запросов для повторяющихся и предсказуемых аналитических рабочих нагрузок. Они хранят предварительно вычисленные результаты запросов и поддерживают их, постепенно обрабатывая последние изменения, внесенные в исходные таблицы. Любой запрос, использующий материализованные представления, гораздо быстрее получает предварительно вычисленные результаты. Материализованные представления могут быть созданы на основе одной или нескольких исходных таблиц с использованием фильтров, проекций, внутренних объединений, агрегатов, группировки, функций и других конструкций SQL.

Более подробную информацию обо всех новых функциях можно найти на веб-сайте Redshift.


Добавить комментарий