为什么Hadoop一定是分布式计算的未来？(2)

日期：2020-10-31 栏目：程序人生浏览：次

除开心态问题不谈，但从技术实力上来说，一般国内公司的核心开发团队的能力和当年的Yahoo!比，还是有非常大的差距的，至少像是Doug兄这样的大牛是很罕见的，从开发者的实力来说，就差了不止一个档次。

其次从积累来说，Hadoop从初创到现在也经过了至少7年的积累的，碰到过很多刁钻客户的问题都慢慢克服了（比如Facebook的超大数据存储），带给用户的经验教训是很充足的，比如说性能调优这一块，就有非常多的文章去介绍。而自己开发一个，什么都需要从头再来。

最后也是最重要的是，Hadoop形成了一个强大稳定的生态系统，里面有生产者（共享改进的代码、fix bug），也有消费者（使用项目并且反馈经验），Hadoop的用户也可以获得较大的经济利益（不花钱买软件，还可以增加效率）。对于一个开源社区来说，构建出一个完整的生态系统是非常非常的困难，一旦构造出来了，项目就会很稳定的往前去进步。

Hadoop的优势

之前分析了一些“虚”的东西，比如生态系统什么的，这里说说一些实际的东西。

Benchmark:

Hadoop现在保持了很多漂亮的记录：

存储：现在世界上最大的Hadoop集群目前在Facebook，可以存储30PB的数据

计算：Hadoop是目前Terasort记录的保持者，Terasort是给出1TB的随机数据，看谁能够在最短的时间内完成排序，Hadoop使用了1400多个节点，在2分钟内完成1T的数据排序。

这里顺便说一下，之前给出网站里面有很多的benchmark，可以看到Hadoop的集群是最大的，使用的机器最多的，像是TritonSort这样的集群，使用了区区50多个节点，最终的结果并不比Hadoop差太多，但是这里得注意一下。TritonSort是专门用来做排序的，里面加入了相当多的优化，但是Hadoop是一个通用的集群，并没有为了一种任务进行如此多的优化。从用户的角度上来说，愿意花钱去买一个只会排序的电脑是意义不那么大的。

为什么Hadoop一定是分布式计算的未来？

注：左右两边属于两种不同的terasort，hadoop是其中一种的记录保持者

转载注明出处：http://www.heiqu.com/e58c806b7e239df3060d92b29f069369.html

为什么Hadoop一定是分布式计算的未来？(2)

相关推荐