SQL Server 2019 будет иметь распределенную файловую систему Apache Spark и Hadoop, упакованную с собственным механизмом, чтобы предоставить единую платформу данных и сделать базу данных более подходящей для анализа массивных наборов данных.
Предварительный просмотр SQL Server 2019 был показан на Microsoft Ignite. Рассказывая о новой версии в своем блоге, Асад Хан, главный менеджер по работе с клиентами, SQL Server, сказал:
«На протяжении 25 лет SQL Server помогает предприятиям управлять всеми аспектами их реляционных данных».
что несколько размывает тот факт, что SQL Server начал свою жизнь как Sybase SQL Server в 1987 году.
Что касается нового, наиболее интересным изменением является введение кластеров больших данных, в которые входят Apache Spark и Hadoop с SQL Server. Это означает, что вы можете использовать Spark с SQL Server как для реляционных, так и для несвязанных данных, находящихся в SQL Server, HDFS и других системах. Новая функция построена на платформе контейнеров Kubernetes, и разработчики говорят, что использование Kubernetes означает, что кластер с одним сервером можно развернуть с помощью одной команды, и у вас будет кластер, доступный для использования примерно через 30 минут. Вы также можете запускать расширенную аналитику и машинное обучение с помощью Spark, использовать потоковую передачу Spark для данных в пулы данных SQL и использовать Azure Data Studio для запуска книг запросов, которые обеспечивают работу с записной книжкой.
Azure Data Studio — это то, что в предварительной версии называлось SQL Operations Studio. Он описывается как легкий, современный кроссплатформенный настольный инструмент с открытым исходным кодом для наиболее распространенных задач разработки и администрирования данных. Его можно использовать для подключения к SQL Server локально и в облаке, и он имеет инструменты для редактирования и выполнения запросов; визуализация данных с помощью встроенных диаграмм ваших наборов результатов; создание пользовательских дашбордов; и анализ данных в интегрированных записных книжках, построенных на Jupyter.
Данные в кластерах также можно отслеживать с помощью конвейера инструментов для сбора данных мониторинга, включая Telegraf, Grafana и InfluxDB, а также SQL Server и Spark.
Microsoft намерена создать кластеры больших данных SQL Server 2019 для создания полноценной платформы искусственного интеллекта, в которой данные загружаются с помощью потоковой передачи Spark или традиционных вставок SQL и хранятся в HDFS, реляционных таблицах, графике или JSON / XML. Попав в кластер, данные можно обрабатывать с помощью либо заданий Spark, либо запросов Transact-SQL. Затем его можно запустить с помощью процедур обучения модели машинного обучения в Spark или с помощью языков программирования, включая Java, Python, R и Scala. Этот маршрут использует службы машинного обучения SQL Server в главном экземпляре для запуска сценариев обучения модели R, Python или Java. Независимо от того, выбран ли Spark или более традиционный языковой путь, для обучения моделей можно использовать библиотеки машинного обучения с открытым исходным кодом, такие как TensorFlow или Caffe.
Полученные модели затем можно использовать с помощью заданий пакетной оценки в Spark, из хранимых процедур T-SQL для оценки в реальном времени или инкапсулировать в контейнеры REST API, размещенные в кластере больших данных.
Второй набор изменений, направленных на то, чтобы сделать SQL Server более полезным, — это переработка PolyBase (который можно использовать для запроса данных из внешних источников с помощью T-SQL), чтобы в дополнение к хранилищу Hadoop и Azure Blob, оба из которых уже были поддерживается, теперь вы можете запрашивать данные из Oracle, Teradata и MongoDB. Нет сомнений в желании Microsoft сохранить актуальность SQL Server независимо от того, где хранятся данные; Будет интересно посмотреть, сработают ли планы.