Hadoop,有所为而有所不为(2)

Hortonworks的首席技术官Eric Baldeschwieler写道:“一条经验法则就是,要关注网络成本与计算机成本之比,网络成本尽量控制在总成本的20%左右。网络成本应包括你的整个网络、核心交换机、机架交换机和所需的任何网卡等。”

至于Cloudera,它估计每个节点所需的成本在3000美元至7000美元之间,具体取决于你确定每个节点有什么样的硬件规格。

Sproehnle也概述了一条很容易遵守的经验法则,帮助你规划Hadoop容量。由于Hadoop具有线性扩展的特性,你只要添加一个节点,就可以增加存储和处理能力。这使得规划起来简单直观。

比如说,要是你的数据每个月增加1TB,那么规划方法如下:Hadoop将数据复制三次,所以你需要3TB的原始存储空间才能容纳新增加的1TB数据。留出一点额外空间(Sproehnle估计要预留30%),以便处理数据操作;这样一来,每个月实际需要的存储空间是4TB。如果你使用4个1 TB驱动器的机器作为节点,每个月就需要一个新的节点。

好就好在,所有新的节点一旦连接上,就可以立即投入使用,从而让你的处理和存储能力增强X倍,其中X指节点的数量。

不过,安装和管理Hadoop节点其实并非易事,但是市面上有许多工具可以助你一臂之力。Cloudera 管理器、Apache Ambari(这是Hortonworks用于其管理系统的工具)和MapR控制系统都是同样卓有成效的Hadoop集群管理工具。如果你使用一套“纯粹”的Apache Hadoop解决方案,还可以关注Platform Symphony MapReduce、StackIQ Rocks + Big Data和Zettaset Data Platform等第三方Hadoop管理系统。

当然,说到为贵企业部署一款Hadoop解决方案,本文介绍的这些内容只是皮毛而已。也许最宝贵的心得在于明白这一点:Hadoop并非旨在取代你目前的数据基础设施,而是只是起到互补作用。

一旦弄清楚了这个重要的区别,就比较容易开始考虑Hadoop可以如何帮助贵企业,没必要对你现有的数据流程进行大刀阔斧的改动。

原文: What Hadoop can, and can’t do

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/e174e2bc6660fd4213aa42d16bf90da3.html