机器学习以及充当这些砖块之间迫在眉睫的数据管道

为我分解

在与ZDNet的简报中，Microsoft的Azure数据和人工智能产品总监Director Yu以及Azure SQL数据仓库首席组项目经理Charles Feddersen详细介绍了Microsoft大胆的全新统一分析产品。基于该介绍，我对从SQL DW到Synapse过渡的理解可归结为三个支柱：

核心数据仓库引擎已经过修订，具有与其他云数据仓库平台竞争的新功能，包括通过明确配置的或按需(无服务器)基础架构来容纳工作负载的能力，每个基础架构都具有关联的定价模型

Apache Spark(开放源代码版本，而非Azure Databricks)和Azure Data Lake Storage(ADLS)的集成，以适应Data Lake工作负载

称为Azure Synapse studio的统一Web用户界面可对Synapse的数据仓库和数据湖侧以及Azure Data Factory进行控制，以适应数据准备和数据管理

SPARK集成等

Apache Spark的集成似乎不仅仅是开源大数据分析框架的“捆绑”。例如，在配置Synapse群集时，将同时请求ADLS容量(可以存储Spark SQL表)(Azure Data Factory也是如此)。可立即从基于SQL Server的T-SQL语言中查询Spark SQL表，而无需首先要求诸如CREATE EXTERNAL TABLE之类的显式命令。这些查询利用的引擎显然与以Apache Parquet格式存储的数据文件本地集成。

这种功能将成为Amazon Web Services的Athena服务的紧密竞争者，该服务提供对S3中数据的SQL查询。但是，除此功能之外，Azure Synapse Studio还集成了笔记本体验，表面上可容纳Python，Scala和本机Spark SQL代码块的开发和执行。Spark集成还意味着Synapse可以借助Spark MLlib处理机器学习工作负载。

除了Spark ML之外，Microsoft还讨论了与Azure机器学习，Power BI，Azure数据共享以及支持Open Data Initiative(基于Microsoft的Common Data Model)的应用程序/服务的集成，但细节较少。这些集成可能会随着时间的流逝而凝结，当Synapse品牌今天推出时，其伴随的新功能仅以预览形式推出。

相关推荐：