Hadoop基础之初识大数据与Hadoop(3)

日期：2020-06-12 栏目：程序人生浏览：次

　　2） Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
　　3）Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。
　　4）Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。
　　5）Hadoop 还是可伸缩的，能够处理 PB 级数据。
　　6）Hadoop 依赖于社区服务，因此它的成本比较低，任何人都可以使用。
　　7）Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：
　　　　高可靠性：Hadoop 按位存储和处理数据的能力值得人们信赖
　　　　高扩展性：Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
　　　　高效性：Hadoop 能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快
　　　　高容错性：Hadoop 能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配
　　　　低成本:与一体机、商用数据仓库以及 QlikView、 Yonghong Z-Suite 等数据集市相比， hadoop 是开源的，项目的软件成本因此会大大降低。
　　8）Hadoop 带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。 Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。

3.3、Hadoop发展历程

Hadoop基础之初识大数据与Hadoop

3.4、Hadoop生态圈

　　经过几年的发展，Hadoop已经发展成包含多个相关项目的软件生态系统。（也就是说Hadoop包含着许多的子项目）

1）狭义的Hadoop

　　核心项目：　　

　　　　Hadoop Common：在 0.20 及以前的版本中，包含 HDFS、 MapReduce 和其他项目公共内容，从 0.21 开始 HDFS和 MapReduce 被分离为独立的子项目，其余内容为 Hadoop Common

　　　　　　　　　　　　　　为Hadoop其他项目提供一些常用工具，如系统配置工具Configuration、远程过程调用RPC序列化机制、Had抽象文件系统FileSystem等。
　　　　HDFS： Hadoop 分布式文件系统(Distributed File System)，运行大型商用机集群，是Hadoop体系中海量数据储存管理的基础。　　

　　　　MapReduce：并行计算框架， 0.20 前使用 org.apache.hadoop.mapred 旧接口， 0.20 版本开始引入 org.apache.hadoop.mapreduce 的新 API。

　　　　　　　　　　　分布式数据处理模型和执行环境，是Hadoop体系中海量数据处理的基础。
2）广义的Hadoop

　　核心项目+其他项目（Avro、Zppkeeper、Hive、Pig、Hbase等）：

　　　　上面为基础，面向具体领域或应用的项目有：mahout、X-Rime、Crissbow、lvory等

　　　　数据交换、工作流等外围支撑系统：Chukwa、Flume、Sqoop、Oozie

Hadoop基础之初识大数据与Hadoop