导航菜单

机器学习以及充当这些砖块之间迫在眉睫的数据管道

为我分解

在与ZDNet的简报中,Microsoft的Azure数据和人工智能产品总监Director Yu以及Azure SQL数据仓库首席组项目经理Charles Feddersen详细介绍了Microsoft大胆的全新统一分析产品。基于该介绍,我对从SQL DW到Synapse过渡的理解可归结为三个支柱:

核心数据仓库引擎已经过修订,具有与其他云数据仓库平台竞争的新功能,包括通过明确配置的或按需(无服务器)基础架构来容纳工作负载的能力,每个基础架构都具有关联的定价模型

Apache Spark(开放源代码版本,而非Azure Databricks)和Azure Data Lake Storage(ADLS)的集成,以适应Data Lake工作负载

称为Azure Synapse studio的统一Web用户界面可对Synapse的数据仓库和数据湖侧以及Azure Data Factory进行控制,以适应数据准备和数据管理

SPARK集成等

Apache Spark的集成似乎不仅仅是开源大数据分析框架的“捆绑”。例如,在配置Synapse群集时,将同时请求ADLS容量(可以存储Spark SQL表)(Azure Data Factory也是如此)。可立即从基于SQL Server的T-SQL语言中查询Spark SQL表,而无需首先要求诸如CREATE EXTERNAL TABLE之类的显式命令。这些查询利用的引擎显然与以Apache Parquet格式存储的数据文件本地集成。

这种功能将成为Amazon Web Services的Athena服务的紧密竞争者,该服务提供对S3中数据的SQL查询。但是,除此功能之外,Azure Synapse Studio还集成了笔记本体验,表面上可容纳Python,Scala和本机Spark SQL代码块的开发和执行。Spark集成还意味着Synapse可以借助Spark MLlib处理机器学习工作负载。

除了Spark ML之外,Microsoft还讨论了与Azure机器学习,Power BI,Azure数据共享以及支持Open Data Initiative(基于Microsoft的Common Data Model)的应用程序/服务的集成,但细节较少。这些集成可能会随着时间的流逝而凝结,当Synapse品牌今天推出时,其伴随的新功能仅以预览形式推出。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。