Hadoop知识点总结 (2)

           2. 2003年、2004年,Google 发表的"分布式文件系统(GFS):可用于处理海量网页的存储 " 和 “分布式计算框架(MapReduce):可用于处理海量网页的索引计算问题” 两篇论文为该问题提供了可行的解决方案。

           3. 由于 NDFS 和 MapReduce 在 Nutch 引擎中有着良好的应用,所以它们于2006年2月被分离出来,成为一套完整而独立的软件,并被命名为Hadoop(大数据生态圈,包含很多软件)。

           4. 到了2008年年初,Hadoop 已成为 Apache的顶级项目,包含众多子项目,被应用到包括Yahoo在内的很多互联网公司

 

       4. 三大发行版本

           1. Apache Hadoop:免费开源,拥有全世界的开源贡献者,代码更新迭代版本比较快,但难以维护,适合学习使用。

               1. 官网地址:

               2. 下载地址:https://archive.apache.org/dist/hadoop/common/

 

           2. Cloudera Hadoop:版本兼容性更好,适用于互联网企业。

               1. 官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html

               2. 下载地址:

 

           3. Hortonworks Hadoop:核心免费开源产品软件HDP(ambari),提供一整套的web管理界面来管理集群。

               1. 官网地址:https://hortonworks.com/products/data-center/hdp/

               2. 下载地址:https://hortonworks.com/downloads/#data-platform

 

    二、Hadoop 核心架构

       1. 历史版本及组成

           

Hadoop知识点总结

 

       2. HDFS(Hadoop Distributed File System  分布式文件系统) 架构概述

          

Hadoop知识点总结

           1. NameNode:管理集群当中的各种元数据,如文件名,文件属性(生成时间,副本数等)以及每个文件的块列表和块所在的DataNode等。

           2. DataNode:存储集群中的各种块数据到本地文件系统并校验块数据。

           3. Secondary NameNode:监控HDFS状态的辅助后台后台程序,每个一段时间获取HDFS元数据快照。

 

       3. Yarn(Yet Another Resource Negotiator   资源管理调度系统) 架构概述

           

Hadoop知识点总结

 

       4. MapReduce(分布式运算框架) 架构概述

          

Hadoop知识点总结

 

    三、Hadoop 生态圈

       

Hadoop知识点总结

       

Hadoop知识点总结

       1. HDFS:Hadoop 分布式文件系统(Hadoop Distributed File System),建立在集群之上,适合PB级大量数据的存储,扩展性强,容错性高。

       2. MapReduce:Hadoop 的计算框架,由 Map 和 Reduce 两部分组成,由Map生成计算的任务,分配到各个节点上,Reduce执行计算。

       3. HBase:源自谷歌的 BigTable,是一个分布式的、面向列存储的开源数据库,性能高,可靠性高,扩展性强

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpdzgf.html