ProtocolBuffer和LZO技术Hadoop系统上的使用

日期：2020-09-30 栏目：程序人生浏览：次

概述
基于Hadoop的集群分布式数据处理目前是淘宝搜索中心最重要的数据处理平台，在集群物理条件确定的情况下，有几个方面影响了数据处理的速度。

1、数据大小（影响磁盘IO和网络IO）
2、数据格式（影响数据的解析及构造速度）
3、并行度

使用 protocolBuffer + lzo技术，能帮我们做到数据小解析快并行度高这三点，能帮我们大幅度提高处理的速度。下面详细介绍一下如何编译部署及开发相关代码。

hadoop介绍
请参考分布式计算开源框架Hadoop介绍(见 ) 和官方网站

protocolBuffer介绍
官方网站
Google定义的一套数据协议，用于数据的结构化和序列化。 Google绝大部分模块数据交互基于此数据协议。

1、平台无关、语言无关。
2、二进制、数据自描述。
3、提供了完整详细的操作API。
4、高性能比xml要快20-100倍
5、尺寸小比xml要小3-10倍 –高可扩展性
6、数据自描述、前后兼容

适用于

1、不同的平台、系统、语言、模块之间高效的数据交互
2、用于构建大型的复杂系统，降低数据层面的耦合度和复杂度

这里要特别着重说的是protocolBuffer是一种数据协议，就像tcp/ip协议一样，只要是遵守此协议的任何系统之间都能高效的进行数据交互。
第二个特别要说的是数据自描述。也就是说拿到任何一个protocolBuffer的数据文件，我们不需要任何其他的辅助信息，就能顺利的解析出其中的数据信息。
这2点是最本质的。
google同时提供了一套代码生成工具，能根据用户自定义的.proto文件，生成c++/java/Python的代码，用于调用protocolBuffer的内核API . 给我们使用提供了很大的便利
.proto文件详细请参考官方网站

转载注明出处：http://www.heiqu.com/272c88cd87fbedd4aac0f651e5960181.html

ProtocolBuffer和LZO技术Hadoop系统上的使用

相关推荐