2. 2003年、2004年,Google 发表的"分布式文件系统(GFS):可用于处理海量网页的存储 " 和 “分布式计算框架(MapReduce):可用于处理海量网页的索引计算问题” 两篇论文为该问题提供了可行的解决方案。
3. 由于 NDFS 和 MapReduce 在 Nutch 引擎中有着良好的应用,所以它们于2006年2月被分离出来,成为一套完整而独立的软件,并被命名为Hadoop(大数据生态圈,包含很多软件)。
4. 到了2008年年初,Hadoop 已成为 Apache的顶级项目,包含众多子项目,被应用到包括Yahoo在内的很多互联网公司。
4. 三大发行版本
1. Apache Hadoop:免费开源,拥有全世界的开源贡献者,代码更新迭代版本比较快,但难以维护,适合学习使用。
1. 官网地址:
2. 下载地址:https://archive.apache.org/dist/hadoop/common/
2. Cloudera Hadoop:版本兼容性更好,适用于互联网企业。
1. 官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
2. 下载地址:
3. Hortonworks Hadoop:核心免费开源产品软件HDP(ambari),提供一整套的web管理界面来管理集群。
1. 官网地址:https://hortonworks.com/products/data-center/hdp/
2. 下载地址:https://hortonworks.com/downloads/#data-platform
二、Hadoop 核心架构
1. 历史版本及组成
2. HDFS(Hadoop Distributed File System 分布式文件系统) 架构概述
1. NameNode:管理集群当中的各种元数据,如文件名,文件属性(生成时间,副本数等)以及每个文件的块列表和块所在的DataNode等。
2. DataNode:存储集群中的各种块数据到本地文件系统并校验块数据。
3. Secondary NameNode:监控HDFS状态的辅助后台后台程序,每个一段时间获取HDFS元数据快照。
3. Yarn(Yet Another Resource Negotiator 资源管理调度系统) 架构概述
4. MapReduce(分布式运算框架) 架构概述
三、Hadoop 生态圈
1. HDFS:Hadoop 分布式文件系统(Hadoop Distributed File System),建立在集群之上,适合PB级大量数据的存储,扩展性强,容错性高。
2. MapReduce:Hadoop 的计算框架,由 Map 和 Reduce 两部分组成,由Map生成计算的任务,分配到各个节点上,Reduce执行计算。
3. HBase:源自谷歌的 BigTable,是一个分布式的、面向列存储的开源数据库,性能高,可靠性高,扩展性强。