导航菜单

Cloudera现在是数据仓库的玩家了

大约七年前,在曼哈顿一家酒店的会议室里,时任Cloudera首席执行官的迈克•奥尔森(Mike Olson)向我简要介绍了Cloudera仍处于保密状态的Impala项目。当Olson告诉我基于mapreduce的计算对企业来说是多么的低效和不足时,我想他知道他是在向转换者说教。他说,答案是Impala,这是一个与hive兼容的数据库,使用Hadoop存储,但在计算和处理时完全绕过了MapReduce。

穿着黑斑羚服装的数据仓库。随着挖掘的深入,我发现这个故事还有更多的含义。黑斑羚不只是一个没有地图简化的蜂房。实际上,Cloudera说,它实际上是一个基于MPP(大规模并行处理)的数据仓库,只是碰巧使用HiveQL作为其语言和HDFS (Hadoop分布式文件系统)存储。

也读:Cloudera的Impala带来了Hadoop到SQL和BIAlso读:SQL和Hadoop:它是复杂的

最终,Impala实现了开源,先是在Cloudera的支持下,然后是在Apache软件基金会的支持下。因此,随着Impala成为通用的,Cloudera为Impala在其自己的Hadoop/Spark发行版CDH中的实现寻找了一个品牌名称。这个名字变成了Cloudera分析数据库。

但要记住,Impala是一个真正的MPP数据仓库。那么,为什么要拐弯抹角呢?考虑到这一点,Cloudera今天宣布推出Cloudera数据仓库(DW),这个基于impala的产品之前被称为Cloudera分析数据库。

在一次电话会议上,Cloudera的数据仓库产品高级总监Joydeep Das和企业营销高级总监Susan Space向我解释说,Cloudera DW不仅仅是一个品牌推广活动,原因有两个。

首先,Impala不再只与HDFS绑定——实际上,该产品可以使用Amazon S3或微软的Azure Data Lake Store (ADLS)进行存储。它也可以使用Kudu, Cloudera自己的柱状存储层(这里的命名是故意的——impala和Kudu都是羚羊的物种)。

还有:Impala、Kudu和Apache孵化器四个月的大数据狂欢

当你添加其他的Cloudera和Hadoop生态系统组件,比如Sqoop、Flume、Hue和Hive本身,你就会明白为什么Cloudera认为它提供了一个端到端的现代数据仓库解决方案。

头(节点)cloudsThe S3和ADLS兼容性也意味着Cloudera DW可以运行在云中,事实上,这是能够这样做了一段时间,只要你不介意这样做在基础设施即服务(IaaS)的基础上使用云虚拟机。但Cloudera已经为Hive和Spark提供了一个名为Altus的平台即服务(PaaS)云服务。那么为什么不添加DW呢?

事实上,Cloudera就是这么做的,它引入了一个PaaS版本的Cloudera DW,叫做…等待……阿尔特斯数据仓库。与IaaS上的Cloudera DW一样,Altus DW将使用云存储层,以允许计算和存储分别进行扩展……但是,新的PaaS产品也将减轻客户必须提供和管理基础设施的负担。

还是有点害怕?在我与Cloudera的简报中,我了解到该公司并不针对企业数据仓库(EDW)场景中的Cloudera/Altus DW产品。Das告诉我,这些产品的目标是数据集市风格的实现,这些实现要么是部门化的,要么是基于场景的。

具体来说,Cloudera的目标是三个核心用例类别:

Cloudera认为以上三种实现是市场增长的方向。我可能会同意,并认为针对他们不是不明智的。但我仍然对Cloudera如何将产品重新包装成数据仓库而感到震惊,它仍然不强调将产品作为EDW使用。

不管怎么说,上面的场景已经引起了云数据仓库公司的注意,比如Snowflake、Amazon(使用Redshift产品)、Microsoft(使用Azure SQL数据仓库)和谷歌(使用BigQuery)。因此,无论我们谈论的是集市还是仓库,重要的Hadoop分发供应商Cloudera现在都是关系数据仓库的竞争者。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。