Cloudera Hadoop-企业级大数据技术体系概述

        Cloudera Hadoop-企业级大数据技术体系概述

                                      作者:尹正杰

版权声明:原创作品,谢绝转载!否则将追究法律责任。

  

  给大家推荐一本不错的的书《大数据技术体系详解,原理,架构与实践》,作者是董西成。里面讲解了常用的大数据开源组件,我用3天时间看完了,作者从各个体系的架构,工作原理分析的很到位,比一些培训机构的金牌讲师要说的详细,这本书售价79人民币。尤其是大数据运维人员我强烈推荐看看。
  随着机构和企业积累的数据越来越多,大数据价值逐步体现出来。2015年国务院向社区公布了《促进大数据发展行动纲要》,正式将大数据提升为国家级战略。《促进大数据发展行动纲要》明确提出了大数据的基本概念:"大数据式以容量(Volume)大,类型(Variety)多,存取速度(Velocity)快,应用价值(Value)高为主要特征的数据集合,正快速发展为对数量巨大,来源分散,格式多样的数据进行采集,存储和关联分析,从中发现新知识,创造新价值,提升新能力的新一代信息技术和服务业态"《促进大数据发展行动纲要》提到大数据在推动经济转型发展,重塑国家竞争优势,以及提升政府治理能力等方面具有重要的意义,提出在信用,交通,卫生,金融,气象等多种领域发展大数据。  

一.大数据系统产生背景及应用场景

1>.大数据系统产生背景

大数据技术直接源于互联网行业。很多互联网的蓬勃发展,用户量和数据量越来越多,逐步形成了大数据,这成为大数据技术的基础。根据有关报告知道,国内百度,腾讯和阿里巴巴等公司数据规模如下:   2013年百度相关技术报告称,百度数据总量接近1000PB,网页的数量大是几千亿个,每年更新几十亿个,每天查询次数几十亿次。   2013年腾讯相关技术报告称,腾讯约有8亿用户,4亿移动用户,总存储数据量经压缩处理以后在100PB左右,日新增200TB到300TB,月增加10%的数据量。    2013年阿里巴巴相关技术报告称,总体数据量为100PB,每天的活跃数据量已经超过50TB,共有4亿条产品信息和2亿多名注册用户,每天访问超过4000万人次。     为了采集,存储,和分析大数据,互联网公司尝试研发大数据技术,从众多技术方案中,开源系统Hadoop与Spark成为应用最广泛的大数据技术,由于他们的用户量巨大,已经初步成为大数据技术规范。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzgdyw.html