大数据存储的进化史 --从 RAID 到 Hdfs (2)

日期：2021-06-09 栏目：程序人生浏览：次

速度： 速度方面的优势源于 Hdfs 合理的设计理念。它默认用到 Hdfs 处理的是大的数据(TB,PB 级的数据)，并且摒弃了传统文件系统中的 Update 操作，只有 Append 操作。在这个基础上，Hdfs 将一个文件分割成若干个块（Block），每个块分布在不同的机器中。。和 RAID 利用多个磁盘并发 IO 提高速度一样，每次操作一个文件的时候，实际上是多个机器在并发读取，这样无疑是进一步提高读取速度。

容量： 容量这个问题自不必说，理论上是可以无限制得扩容。但实际上由于它的元数据存储在一台 namenode 中，所以它的大小还是会收到元数据存储的这个限制。不过在 Hadoop2.0 后，在机器条件允许的情况下，一个 Hdfs 支撑起 PB 级别的存储还是绰绰有余的。

容错性： 在容错性这个方面，从以前到现在基本都是通过数据冗余来实现的。只不过数据冗余的一些策略会根据不同的应用场景而做出一些改变。由于 Hadoop 本身就是假设部署在多台廉价机器上，所以它会倾向于将存储数据的节点当作不可靠的节点。出于这个因素，Hdfs 的默认冗余备份数是 3份，就是说当你向 Hdfs 写入一份数据的时候，同时会在其他三台机器上也写入相同的内容。

我们可以发现，其实 Hdfs 和 RAID 在思想上是有一些相似之处的。都是通过水平拓展，比如 RAID 水平拓展磁盘，Hdfs 则是水平拓展机器。

铁打的营盘流水的兵。数据就是那些兵，大数据计算框架，比如 Spark，Hive 是将军。而营盘就是 Hdfs 了。兵进进出出，将军换了一个又一个，唯独营盘不会变， Hdfs 无疑是大数据体系中最基础也是最重要的那一环。

这里给出一个有意思的问题： 当下一次互联网革命到来，数据又呈指数增长的时候，数据存储的模式会怎样演化呢？会是简单的增加集群吗，比方说让多个 hdfs 集群相互连通？欢迎在评论中写下你的思考。

转载注明出处：https://www.heiqu.com/wpsxxp.html

大数据存储的进化史 --从 RAID 到 Hdfs (2)

相关推荐