Hadoop基础之初识大数据与Hadoop

  从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢?

  学习Hadoop有一个8020原则,80%都是在不断的配置配置搭建集群,只有20%写程序!

一、引言(大数据时代)

 

1.1、从数据中得到信息

  我们看一张图片:

    

Hadoop基础之初识大数据与Hadoop

  我们知道这个图片上的人叫张小妹,年龄20岁,职业模特。但是如果只有数据没有图片的话,就没有意义的数据了。所以数据一定是在特定的环境下才有意义的

  我们再来看一张图片:

    

Hadoop基础之初识大数据与Hadoop

  从这张图片分析出:从纵向分析,范范和张帆的购买东西十分的相似,所以如果要推荐东西给张帆的话,我们就可以选择小米手环。

                从横向分析,无效鼠标,linux编程思想,皮鞋和小米手环都卖的比较火,其他几样销量少,所以我们推荐就可以把这几样放上去。

 

1.2、大数据表象概念

  大家理解什么是大数据吗,那大数据到底有多大!我们就以百度的数据来分析一下:

    

Hadoop基础之初识大数据与Hadoop

  首先:1PB=1024T

  分析:我们就看最小的它每天产生的日志就可以看出来,百度每天要产生100TB~1PB的日志数据。一般我们电脑的硬盘是1T的。那就需要电脑的100个硬盘到1024块硬盘,你想想是多么的恐怖!

二、大数据基础

 

2.1、什么是大数据?

  其实对于大数据官方并没有给出一个准确的定义,不同机构有着不同的定义。

  1)对于“大数据”(Big data)研究机构 Gartner 给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产
  2)麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征
  3)大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,
    如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
  4) 从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处
    理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
  5)随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据
    这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像 MapReduce 一样的框架来向数十、数百或甚至数千的电脑分配工作。
  6) 大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

  7)谷歌给出的大数据定义和特点

    

Hadoop基础之初识大数据与Hadoop

 

2.2、大数据的基本特征

  容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息
  种类(Variety):数据类型的多样性
  速度(Velocity):指获得数据的速度
  可变性(Variability):妨碍了处理和有效地管理数据的过程
  真实性(Veracity):数据的质量

  复杂性(Complexity):数据量巨大,来源多渠道
  价值(Value):合理运用大数据,以低成本创造高价值

 

2.3、大数据的意义

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/ff3b114915849c6aa7afd43921aa6c31.html