20210202-1 大数据云计算介绍和基础(上) (2)

基本定义:大数据是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集合。 “大数据”与“大规模数据”的最大区别,就在于“大数据”这一概念中包含着对数据对象的处理行为。

Volume 大量 (积累性)

Velocity 高速 (即时性)

Variety 多样 (多维度)

Value 价值 (有用性)

Veracity 真实性 (客观性)

 

大数据关键技术

大数据采集技术

获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。

大数据预处理技术

主要完成对已接收数据的辨析、抽取、清洗等操作。

清洗就是看数据是否有用

大数据存储及管理技术

大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。

大数据分析及挖掘技术

从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

大数据展现与应用技术

重点应用于以下三大领域:商业智能、政府决策、公共服务。

 

大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用。

20210202-1 大数据云计算介绍和基础(上)

大数据是非结构化数据,不能用sql查询语句查询,Hive相当于提供一个接口,使之可以用sql语句查询,底层依然是分布式的计算方式,只是在上面封装了 sql 的接口,用 Hive 可以做数据分析

 

二、云计算概述

云计算

·在过去的几十年里,“并行计算”“分布式计算”、“网格计算”等与云计算类似的概念和理论以不同的方式进行着尝试与实践。

·人们希望能够更好地整合互联网和不同设备上的信息和应用,把所有的计算、存储资料连接在一起,实现最大范围的协作与资源分享。

·云计算式这些计算计算的融合和发展,强调基于网络化计算与存储资料,达到高效率、低成本计算的理念。“按需计算”、“软件即服务”“平台即服务”等新理念和新模式,都是各企业对云计算的各自解读或云计算发展的不同阶段。

云计算的服务器都是放在网络上的,每一个网络上的计算机的成本可能不高,但是通过网络把计算机整合一起,形成的整合计算能力,能够达到高效率的效果。

软件即服务,平台即服务,指PAAS等

 

云计算概述

■ 数据在云端:不怕丢失,不必备份,可以任意点的恢复;

因为云计算已经帮助备份好了,云计算的底层有备份,只是使用者不知道而已

■ 软件在云端:不必下载自动升级;

■ 无所不在的计算:在任何时间,任意地点,任何设设备登录后就可以进行计算服务;

比如阿里云,提供的网页登录界面,为管理服务器提供便利的条件

集团服务器无法使用公网登录,都是做了网络隔离的,只能通过公司内网登录

或者通过 VPN 虚拟网络,才能够登录到公司内网,然后登录到服务器

■ 无限强大的计算:具有无限空间的,无限速度。

20210202-1 大数据云计算介绍和基础(上)

 

三、云计算定义

云计算的定义

云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwsjjx.html