2) Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
3)Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。
4)Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。
5)Hadoop 还是可伸缩的,能够处理 PB 级数据。
6)Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。
7)Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
高可靠性:Hadoop 按位存储和处理数据的能力值得人们信赖
高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
高效性:Hadoop 能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快
高容错性:Hadoop 能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配
低成本:与一体机、商用数据仓库以及 QlikView、 Yonghong Z-Suite 等数据集市相比, hadoop 是开源的,项目的软件成本因此会大大降低。
8)Hadoop 带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。 Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。
3.3、Hadoop发展历程
3.4、Hadoop生态圈
经过几年的发展,Hadoop已经发展成包含多个相关项目的软件生态系统。(也就是说Hadoop包含着许多的子项目)
1)狭义的Hadoop
核心项目:
Hadoop Common: 在 0.20 及以前的版本中,包含 HDFS、 MapReduce 和其他项目公共内容,从 0.21 开始 HDFS和 MapReduce 被分离为独立的子项目,其余内容为 Hadoop Common
为Hadoop其他项目提供一些常用工具,如系统配置工具Configuration、远程过程调用RPC序列化机制、Had抽象文件系统FileSystem等。
HDFS: Hadoop 分布式文件系统(Distributed File System),运行大型商用机集群,是Hadoop体系中海量数据储存管理的基础。
MapReduce: 并行计算框架, 0.20 前使用 org.apache.hadoop.mapred 旧接口, 0.20 版本开始引入 org.apache.hadoop.mapreduce 的新 API。
分布式数据处理模型和执行环境,是Hadoop体系中海量数据处理的基础。
2)广义的Hadoop
核心项目+其他项目(Avro、Zppkeeper、Hive、Pig、Hbase等):
上面为基础,面向具体领域或应用的项目有:mahout、X-Rime、Crissbow、lvory等
数据交换、工作流等外围支撑系统:Chukwa、Flume、Sqoop、Oozie
子项目:
Hbase:
Zookeeper:
Apache Pig:
Apache Hive:
Apache Flume:
Apache sqoop:
Mahout:
Ambari: