“现在是企业应用Hadoop的最佳时机。”Hortonworks公司首席技术官Jeff Markham在11月底举行的2013中国Hadoop技术峰会上演讲时表示。在本次峰会上,Hadoop进入2.0时代成了人们谈论的焦点。Jeff Markham表示,Hadoop 2.0拥有更强大、更广泛的符合企业用户需求的新特性,弥补了Hadoop 1.0的不足之处,更符合企业用户的需求。
Hadoop改头换面
Jeff Markham在介绍Hadoop 2.0的新特性时,记者听到身后有人窃窃私语:“你看,Hadoop 2.0的框架中多了几个奇怪的功能模块。”是的,这些功能模块中最重要的就是YARN。YARN其实是一个资源管理器,它从某种程度上说颠覆了Hadoop的数据处理核心MapReduce,能让用户以与批处理完全不同的新的交互方式来运行Hadoop。众所周知,Hadoop的设计初衷是为了搜索和索引Web网页,而负责操控数据的MapReduce擅长处理和分析非结构化或半结构化的数据,比如日志文件等,但并不适合处理所有类型的数据。随着数据量的增长以及数据复杂性的增加,人们更希望能够在一个集群中处理多种类型的应用程序。这也是Hadoop 2.0诞生的背景。
有人认为,YARN本质上就是Hadoop的新操作系统,它突破了MapReduce的性能瓶颈。Hadoop与YARN的组合更适合企业大数据的应用。YARN的设计思想是将资源管理与作业调度/监控功能分离,其架构实现是通过一个全局的ResourceManager与若干个面向具体应用程序的ApplicationMaster的组合,其中ResourceManager负责将资源分配到各个应用程序,而ApplicationMaster负责运行和监控任务。Jeff Markham表示:“加入YARN这一管理层,让Hadoop可以更好地满足企业级用户对大数据平台的需求。我们公司从安全、管理、配置等多个层面已经为Hadoop 2.0进入企业做好了准备。”
Hadoop 2.0已经不是一个设想,而是实实在在的解决方案。中国本土的大数据公司星环信息科技(上海)有限公司(以下简称星环科技)就在峰会上宣布,正式推出融合Spark与Hadoop 2.0的大数据平台产品Transwarp Data Hub。“企业用户的一个共同想法是,更高效地处理更大量的数据,同时降低时延。”星环科技联合创始人、CTO孙元浩介绍说,“以前,针对不同数量级的数据,人们会采用不同的处理技术,比如内存技术、索引技术以及一些性能优化技术等。Transwarp Data Hub的一个最突出的优势是,可以在一个平台上处理从GB级到PB级的数据。”
正是因为Transwarp Data Hub具备了这样的能力,所以它的应用范围十分广泛,包括离线分析、统计与挖掘、在线存储以及在线的基于内存的高速分析等。Transwarp Data Hub将数据集成/ETL、大数据存储和在线服务系统、基于内存的高效计算引擎、高性能SQL、统计分析和机器学习等融为一体,实现了性能上的突破。用孙元浩的话说,Transwarp Data Hub具有“闪电”般的速度,其速度比开源Hadoop 2.0快10~100倍。此外,Transwarp Data Hub还具有强大的分析能力,并与Hadoop生态系统全面兼容。
以Transwarp Data Hub为核心,星环科技还与许多大数据厂商进行了合作,包括Revolution R、Informatica、Tableau等,将这些厂商的数据处理与分析工具进行整合,构成了完整的大数据平台。
降低应用门槛
由于Hadoop本身的复杂性,以及企业中缺少相关的大数据专业技术人员,Hadoop若想在企业用户中得到快速普及其实并不容易。因此,很多IT厂商纷纷向Hadoop抛出“橄榄枝”,有的提供基于Hadoop的硬件解决方案,有的则推出了Hadoop软件的商业发行版,其目的只有一个,就是降低Hadoop的应用门槛。
在本次峰会上,许多知名IT厂商,包括英特尔、VMware、华为等以及众多电信运营、互联网企业都现身说法,为Hadoop在中国的推广站脚助威。英特尔亚太研发有限公司总经理何京翔表示,除了发布Hadoop商业发行版以外,英特尔从硬件(包括处理器、固态硬盘等)、安全性、管理和优化等多个角度对Hadoop提供全方位支持,目的就是让Hadoop更能满足企业用户的需要。
相关阅读:
Ubuntu 13.04上搭建Hadoop环境