Hadoop连载系列之六：数据收集分析系统Chukwa

日期：2020-07-19 栏目：程序人生浏览：次

系列几篇文章中介绍了分布式存储和计算系统Hadoop以及Hadoop集群的搭建、Zookeeper集群搭建、HBase分布式部署等。当Hadoop集群的数量达到1000+时，集群自身的信息将会大量增加。Apache开发出一个开源的数据收集和分析系统—Chukwa来处理Hadoop集群的数据。Chukwa有几个非常吸引人的特点：它架构清晰，部署简单；收集的数据类型广泛，具有很强的扩展性；与 Hadoop 无缝集成，能完成海量数据的收集与整理。
1 Chukwa简介

--------------------------------------------------------------------------------
在Chukwa的官网https://chukwa.apache.org/ 上，Chukwa被描述为：Chukwa是一个开源的监控大型分布式系统的数据收集系统，它构建于HDFS和Map/Reduce框架之上，并继承了Hadoop优秀的扩展性和健壮性。在数据分析方面，Chukwa拥有一套灵活、强大的工具，可用于监控和分析结果来更好的利用所收集的数据结果。
为了更加简单直观的展示 Chukwa，我们先来看一个假设的场景。假设我们有一个规模很大 ( 牵扯到 Hadoop 的总是很大。。。。) 的网站，网站每天产生数量庞大的日志文件，要收集，分析这些日志文件可不是件容易的事情，读者可能会想了，做这种事情 Hadoop 挺合适的，很多大型网站都在用，那么问题来了，分散在各个节点的数据怎么收集，收集到的数据如果有重复数据怎么处理，如何与 Hadoop 集成。如果自己编写代码完成这个过程，一来需要花费不小的精力，二来不可避免的会引入 Bug。这里就是我们 Chukwa 发挥作用的时候了，Chukwa 是一个开源的软件，有很多聪明的开发者在贡献着自己的智慧。它可以帮助我们在各个节点实时监控日志文件的变化，增量的将文件内容写入 HDFS，同时还可以将数据去除重复，排序等，这时 Hadoop 从 HDFS 中拿到的文件已经是 SequenceFile 了。无需任何转换过程，中间繁杂的过程都由 Chukwa 帮我们完成了。是不是很省心呢。这里我们仅仅举了一个应用的例子，它还可以帮我们监控来自 Socket 的数据，甚至定时执行我们指定的命令获取输出数据，等等，具体的可以参看 Chukwa 官方文档。如果这些还不够，我们还可以自己定义自己的适配器来完成更加高级的功能。

2 Chukwa的架构

--------------------------------------------------------------------------------
Chukwa旨在为分布式数据收集和大数据处理提供一个灵活、强大的平台，这个平台不仅现时可用，而且能够与时俱进的利用更新的存储技术（比如HDFS、HBase等），当这些存储技术变得成熟时。为了保持这种灵活性，Chukwa被设计成收集和处理层级的管道线，在各个层级之间有非常明确和狭窄的界面，下图为Chukwa架构示意图：

Hadoop连载系列之六：数据收集分析系统Chukwa

其中主要的部件为:
1. Agents : 负责采集最原始的数据,并发送给 Collectors
2. Adaptors : 直接采集数据的接口和工具,一个 Agent 可以管理多个 Adaptor 的数据采集
3. Collectors ：负责收集 Agent 收送来的数据,并定时写入集群中
4. Map/Reduce Jobs：定时启动,负责把集群中的数据分类、排序、去重和合并
5. HICC（Hadoop Infrastructure Care Center）负责数据的展示

3 主要部件的具体设计

--------------------------------------------------------------------------------

3.1 Adaptors、Agents

--------------------------------------------------------------------------------
在每个数据的产生端(基本上是集群中每一个节点上), Chukwa 使用一个Agent 来采集它感兴趣的数据,每一类数据通过一个 Adaptor 来实现, 数据的类型(Data Model)在相应的配置中指定. 默认地, Chukwa 对以下常见的数据来源已经提供了相应的 Adaptor ：命令行输出、log 文件和 httpSender等等. 这些 Adaptor 会定期运行(比如每分钟读一次 df 的结果)或事件驱动地执行(比如 kernel 打了一条错误日志). 如果这些 Adaptor 还不够用，用户也可以方便地自己实现一个 Adaptor 来满足需求。

为防止数据采集端的 Agent 出现故障，Ahukwa 的 Agent 采用了所谓的 ‘watchdog’ 机制，会自动重启终止的数据采集进程，防止原始数据的丢失。
另一方面, 对于重复采集的数据, 在 Chukwa 的数据处理过程中,会自动对它们进行去重. 这样,就可以对于关键的数据在多台机器上部署相同的 Agent,从而实现容错的功能。

3.2 Collectors

--------------------------------------------------------------------------------
agents 采集到的数据,是存储到 hadoop 集群上的。hadoop 集群擅长于处理少量大文件，而对于大量小文件的处理则不是它的强项，针对这一点，chukwa 设计了 collector 这个角色，用于把数据先进行部分合并，再写入集群，防止大量小文件的写入。
另一方面,为防止 collector 成为性能瓶颈或成为单点,产生故障, chukwa 允许和鼓励设置多个 collector, agents 随机地从 collectors 列表中选择一个 collector 传输数据,如果一个 collector 失败或繁忙,就换下一个 collector. 从而可以实现负载的均衡,实践证明,多个 collector 的负载几乎是平均的。

3.3 demux、archive

转载注明出处：https://www.heiqu.com/d8a796adcaf5ed9380a2785dba5bd854.html

Hadoop连载系列之六：数据收集分析系统Chukwa

相关推荐