Hadoop基础之初识大数据与Hadoop(3)

  2) Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
  3)Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理
  4)Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度
  5)Hadoop 还是可伸缩的,能够处理 PB 级数据
  6)Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用
  7)Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
    高可靠性:Hadoop 按位存储和处理数据的能力值得人们信赖
    高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
    高效性:Hadoop 能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快
    高容错性:Hadoop 能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配
    低成本:与一体机、商用数据仓库以及 QlikView、 Yonghong Z-Suite 等数据集市相比, hadoop 是开源的,项目的软件成本因此会大大降低。
  8)Hadoop 带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。 Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。

 

3.3、Hadoop发展历程

  

Hadoop基础之初识大数据与Hadoop

 

3.4、Hadoop生态圈

  经过几年的发展,Hadoop已经发展成包含多个相关项目的软件生态系统。(也就是说Hadoop包含着许多的子项目)

1)狭义的Hadoop

  核心项目:  

    Hadoop Common: 在 0.20 及以前的版本中,包含 HDFS、 MapReduce 和其他项目公共内容,从 0.21 开始 HDFS和 MapReduce 被分离为独立的子项目,其余内容为 Hadoop Common

              为Hadoop其他项目提供一些常用工具,如系统配置工具Configuration、远程过程调用RPC序列化机制、Had抽象文件系统FileSystem等。
    HDFS: Hadoop 分布式文件系统(Distributed File System),运行大型商用机集群,是Hadoop体系中海量数据储存管理的基础。  

    MapReduce: 并行计算框架, 0.20 前使用 org.apache.hadoop.mapred 旧接口, 0.20 版本开始引入 org.apache.hadoop.mapreduce 的新 API。

           分布式数据处理模型和执行环境,是Hadoop体系中海量数据处理的基础。
2)广义的Hadoop

  核心项目+其他项目(Avro、Zppkeeper、Hive、Pig、Hbase等):

    上面为基础,面向具体领域或应用的项目有:mahout、X-Rime、Crissbow、lvory等

    数据交换、工作流等外围支撑系统:Chukwa、Flume、Sqoop、Oozie

    

Hadoop基础之初识大数据与Hadoop

  子项目:

    Hbase:

      

Hadoop基础之初识大数据与Hadoop

    Zookeeper:

      

Hadoop基础之初识大数据与Hadoop

    Apache Pig:

      

    Apache Hive:

      

    Apache Flume:

      

Hadoop基础之初识大数据与Hadoop

    Apache sqoop:

      

Hadoop基础之初识大数据与Hadoop

    Mahout:

      

    Ambari:

      

Hadoop2.3-HA高可用集群环境搭建 

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/ff3b114915849c6aa7afd43921aa6c31.html