Cloudera现在是数据仓库的玩家了

大约七年前，在曼哈顿一家酒店的会议室里，时任Cloudera首席执行官的迈克•奥尔森(Mike Olson)向我简要介绍了Cloudera仍处于保密状态的Impala项目。当Olson告诉我基于mapreduce的计算对企业来说是多么的低效和不足时，我想他知道他是在向转换者说教。他说，答案是Impala，这是一个与hive兼容的数据库，使用Hadoop存储，但在计算和处理时完全绕过了MapReduce。

穿着黑斑羚服装的数据仓库。随着挖掘的深入，我发现这个故事还有更多的含义。黑斑羚不只是一个没有地图简化的蜂房。实际上，Cloudera说，它实际上是一个基于MPP(大规模并行处理)的数据仓库，只是碰巧使用HiveQL作为其语言和HDFS (Hadoop分布式文件系统)存储。

也读:Cloudera的Impala带来了Hadoop到SQL和BIAlso读:SQL和Hadoop:它是复杂的

最终，Impala实现了开源，先是在Cloudera的支持下，然后是在Apache软件基金会的支持下。因此，随着Impala成为通用的，Cloudera为Impala在其自己的Hadoop/Spark发行版CDH中的实现寻找了一个品牌名称。这个名字变成了Cloudera分析数据库。

但要记住，Impala是一个真正的MPP数据仓库。那么，为什么要拐弯抹角呢?考虑到这一点，Cloudera今天宣布推出Cloudera数据仓库(DW)，这个基于impala的产品之前被称为Cloudera分析数据库。

在一次电话会议上，Cloudera的数据仓库产品高级总监Joydeep Das和企业营销高级总监Susan Space向我解释说，Cloudera DW不仅仅是一个品牌推广活动，原因有两个。

首先，Impala不再只与HDFS绑定——实际上，该产品可以使用Amazon S3或微软的Azure Data Lake Store (ADLS)进行存储。它也可以使用Kudu, Cloudera自己的柱状存储层(这里的命名是故意的——impala和Kudu都是羚羊的物种)。

还有:Impala、Kudu和Apache孵化器四个月的大数据狂欢

当你添加其他的Cloudera和Hadoop生态系统组件，比如Sqoop、Flume、Hue和Hive本身，你就会明白为什么Cloudera认为它提供了一个端到端的现代数据仓库解决方案。

头(节点)cloudsThe S3和ADLS兼容性也意味着Cloudera DW可以运行在云中,事实上,这是能够这样做了一段时间,只要你不介意这样做在基础设施即服务(IaaS)的基础上使用云虚拟机。但Cloudera已经为Hive和Spark提供了一个名为Altus的平台即服务(PaaS)云服务。那么为什么不添加DW呢?

事实上，Cloudera就是这么做的，它引入了一个PaaS版本的Cloudera DW，叫做…等待……阿尔特斯数据仓库。与IaaS上的Cloudera DW一样，Altus DW将使用云存储层，以允许计算和存储分别进行扩展……但是，新的PaaS产品也将减轻客户必须提供和管理基础设施的负担。

还是有点害怕?在我与Cloudera的简报中，我了解到该公司并不针对企业数据仓库(EDW)场景中的Cloudera/Altus DW产品。Das告诉我，这些产品的目标是数据集市风格的实现，这些实现要么是部门化的，要么是基于场景的。

具体来说，Cloudera的目标是三个核心用例类别:

Cloudera认为以上三种实现是市场增长的方向。我可能会同意，并认为针对他们不是不明智的。但我仍然对Cloudera如何将产品重新包装成数据仓库而感到震惊，它仍然不强调将产品作为EDW使用。

不管怎么说，上面的场景已经引起了云数据仓库公司的注意，比如Snowflake、Amazon(使用Redshift产品)、Microsoft(使用Azure SQL数据仓库)和谷歌(使用BigQuery)。因此，无论我们谈论的是集市还是仓库，重要的Hadoop分发供应商Cloudera现在都是关系数据仓库的竞争者。

相关推荐：