Важными функциями на этом пути являются восстановление в пакетном стиле для пакетных заданий и предварительная версия нового механизма запросов на основе Blink для API таблиц и запросов SQL.
Apache Flink — это платформа с открытым исходным кодом для распределенной потоковой и пакетной обработки данных. Он состоит из механизма потоковых данных, который обеспечивает распределение данных, обмен данными и отказоустойчивость для распределенных вычислений по потокам данных. Flink включает несколько API, включая DataSet API для статических данных, встроенных в Java, Scala и Python; API DataStream для неограниченных потоков, встроенных в Java и Scala; API таблиц с SQL-подобным языком выражений, встроенным в Java и Scala; и потоковый SQL API, который позволяет выполнять SQL-запросы к потоковым и пакетным таблицам, с синтаксисом, основанным на Apache Calcite.
Основные улучшения в новой версии начинаются с добавления пакетного восстановления для пакетных заданий и предварительного просмотра нового механизма запросов на основе Blink для API таблиц и запросов SQL.
Новое пакетное восстановление значительно сократило время восстановления пакетного задания после сбоя задачи. Это охватывает задания DataSet, Table API и SQL. До этой версии в случае сбоя задачи восстановление пакетного задания включало отмену всех задач и перезапуск всего задания с аннулированием всего прогресса. Теперь вы можете настроить Flink для ограничения восстановления только теми задачами, которые находятся в той же области аварийного переключения, набор задач, которые связаны через конвейерный обмен данными.
Предварительная версия механизма запросов на основе Blink — это развитие Blink, подаренного Apache Flink. Оптимизатор запросов Blink и среда выполнения для Table API и SQL были интегрированы в Flink, а планировщик запросов был расширен, так что теперь есть два варианта сменных процессоров запросов для выполнения Table API и операторов SQL: процессор Flink до 1.9 и новый процессор запросов на основе Blink. Обработчик запросов на основе Blink предлагает лучшее покрытие SQL и повышенную производительность для пакетных запросов, поскольку он имеет более обширную оптимизацию запросов, включая выбор плана на основе стоимости и больше правил оптимизации. Поскольку процессор запросов еще не полностью интегрирован, в этом выпуске исходный процессор по-прежнему используется по умолчанию, хотя вы можете включить процессор Blink.
В другом месте API обработчика состояний теперь полностью доступен и может использоваться для чтения и записи точек сохранения с помощью заданий Flink DataSet. Наконец, Flink 1.9 включает переработанный веб-интерфейс и предварительные версии нового API таблиц Python от Flink, а также его интеграцию с экосистемой Apache Hive.