基本定义:大数据是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集合。 “大数据”与“大规模数据”的最大区别,就在于“大数据”这一概念中包含着对数据对象的处理行为。
Volume 大量 (积累性)
Velocity 高速 (即时性)
Variety 多样 (多维度)
Value 价值 (有用性)
Veracity 真实性 (客观性)
大数据关键技术
大数据采集技术
获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。
大数据预处理技术
主要完成对已接收数据的辨析、抽取、清洗等操作。
清洗就是看数据是否有用
大数据存储及管理技术
大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。
大数据分析及挖掘技术
从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
大数据展现与应用技术
重点应用于以下三大领域:商业智能、政府决策、公共服务。
大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用。
大数据是非结构化数据,不能用sql查询语句查询,Hive相当于提供一个接口,使之可以用sql语句查询,底层依然是分布式的计算方式,只是在上面封装了 sql 的接口,用 Hive 可以做数据分析
二、云计算概述
云计算
·在过去的几十年里,“并行计算”“分布式计算”、“网格计算”等与云计算类似的概念和理论以不同的方式进行着尝试与实践。
·人们希望能够更好地整合互联网和不同设备上的信息和应用,把所有的计算、存储资料连接在一起,实现最大范围的协作与资源分享。
·云计算式这些计算计算的融合和发展,强调基于网络化计算与存储资料,达到高效率、低成本计算的理念。“按需计算”、“软件即服务”“平台即服务”等新理念和新模式,都是各企业对云计算的各自解读或云计算发展的不同阶段。
云计算的服务器都是放在网络上的,每一个网络上的计算机的成本可能不高,但是通过网络把计算机整合一起,形成的整合计算能力,能够达到高效率的效果。
软件即服务,平台即服务,指PAAS等
云计算概述
■ 数据在云端:不怕丢失,不必备份,可以任意点的恢复;
因为云计算已经帮助备份好了,云计算的底层有备份,只是使用者不知道而已
■ 软件在云端:不必下载自动升级;
■ 无所不在的计算:在任何时间,任意地点,任何设设备登录后就可以进行计算服务;
比如阿里云,提供的网页登录界面,为管理服务器提供便利的条件
集团服务器无法使用公网登录,都是做了网络隔离的,只能通过公司内网登录
或者通过 VPN 虚拟网络,才能够登录到公司内网,然后登录到服务器
■ 无限强大的计算:具有无限空间的,无限速度。
三、云计算定义
云计算的定义
云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。