1)现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。
阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是 IT 时代,而是 DT 的时代,DT 就是 Data Technology 数据科技,显示大数据对于阿里巴巴集团来说举足轻重。
2)有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。
价值含量、挖掘成本比数量更为重要。对于很多行业而言, 如何利用这些大规模数据是赢得竞争的关键。
3)大数据的价值体现在以下几个方面:
对大量消费者提供产品或服务的企业可以利用大数据进行精准营销
做小而美模式的中小微企业可以利用大数据做服务转型
面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值
4)不过,“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。
著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。”这确实是需要警惕的。
5)在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。
企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。
例如,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:
及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。
为成千上万的快递车辆规划实时交通路线,躲避拥堵。
根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。
从大量客户中快速识别出金牌客户。
使用点击流分析和数据挖掘来规避欺诈行为。
2.4、大数据的系统架构(整体架构)
2.5、大数据处理平台
2.6、大数据中的几个概念
1)集群(Cluster):服务器集群就是指将很多服务器集中起来一起进行同一种服务,在客户端看来就像是只有一个服务器。集群可以利用多个计算机进行并行 计算从而获得很高的计算速度,也可以用多个计算机做备份,
从而使得任何一个机器坏了整个系统还是能正常运行。(通俗来说就是由若干计算机组成的,共同协作来完成一个大型复杂计算任务的计算机群体。 )
2)数据密集型(DIC):在集群中所计算的数据的量比较大,但是计算过程并不复杂。
3)计算密集型(CIC):数据量并不大,但是计算过程是比较复杂的。
4)向上扩展(Scale-up):对硬件的扩展。受限于硬件的发展。其实就是对cpu、内存、硬盘的扩展
5)向外扩展(Scale-out):通过计算机集群的方式来提高计算能力。 (例如当某个计算任务用 10 台计算机不能完成时就增加计算机台数来完成)。受限于网络资源。其实就是对服务器个数的扩展
6)机器学习(MachineLearning):当数据被处理完,用来获取所处理的信息。从数据集中获取信息。
7)云计算(CloudComputing):通过互联网来提供动态易扩展且经常是虚拟化的资源
3.1、什么是Hadoop
1)Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。
2)用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
3)Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称 HDFS。 HDFS 有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;
而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
HDFS 放宽了(relax) POSIX 的要求,可以以流的形式访问(streaming access)文件系统中的数据。
4)Hadoop 的框架最核心的设计就是: HDFS 和 MapReduce。 HDFS 为海量的数据提供了存储,��� MapReduce 为海量的数据提供了计算。
3.2、Hadoop的优点
1)Hadoop 是一个能够对大量数据进行分布式处理的软件框架。