Hadoop知识点总结 (2)

日期：2021-05-25 栏目：程序人生浏览：次

2. 2003年、2004年，Google 发表的"分布式文件系统（GFS）：可用于处理海量网页的存储 " 和 “分布式计算框架（MapReduce）：可用于处理海量网页的索引计算问题” 两篇论文为该问题提供了可行的解决方案。

3. 由于 NDFS 和 MapReduce 在 Nutch 引擎中有着良好的应用，所以它们于2006年2月被分离出来，成为一套完整而独立的软件，并被命名为Hadoop（大数据生态圈，包含很多软件）。

4. 到了2008年年初，Hadoop 已成为 Apache的顶级项目，包含众多子项目，被应用到包括Yahoo在内的很多互联网公司。

4. 三大发行版本

1. Apache Hadoop：免费开源，拥有全世界的开源贡献者，代码更新迭代版本比较快，但难以维护，适合学习使用。

1. 官网地址：

2. 下载地址：https://archive.apache.org/dist/hadoop/common/

2. Cloudera Hadoop：版本兼容性更好，适用于互联网企业。

1. 官网地址：https://www.cloudera.com/downloads/cdh/5-10-0.html

2. 下载地址：

3. Hortonworks Hadoop：核心免费开源产品软件HDP（ambari），提供一整套的web管理界面来管理集群。

1. 官网地址：https://hortonworks.com/products/data-center/hdp/

2. 下载地址：https://hortonworks.com/downloads/#data-platform

二、Hadoop 核心架构

1. 历史版本及组成

Hadoop知识点总结

2. HDFS（Hadoop Distributed File System 分布式文件系统）架构概述

Hadoop知识点总结

1. NameNode：管理集群当中的各种元数据，如文件名，文件属性（生成时间，副本数等）以及每个文件的块列表和块所在的DataNode等。

2. DataNode：存储集群中的各种块数据到本地文件系统并校验块数据。

3. Secondary NameNode：监控HDFS状态的辅助后台后台程序，每个一段时间获取HDFS元数据快照。

3. Yarn（Yet Another Resource Negotiator 资源管理调度系统）架构概述

Hadoop知识点总结

4. MapReduce（分布式运算框架）架构概述

Hadoop知识点总结

三、Hadoop 生态圈

1. HDFS：Hadoop 分布式文件系统（Hadoop Distributed File System），建立在集群之上，适合PB级大量数据的存储，扩展性强，容错性高。

2. MapReduce：Hadoop 的计算框架，由 Map 和 Reduce 两部分组成，由Map生成计算的任务，分配到各个节点上，Reduce执行计算。

3. HBase：源自谷歌的 BigTable，是一个分布式的、面向列存储的开源数据库，性能高，可靠性高，扩展性强。