大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(精确)。大数据最核心的价值就是在于对于海量数据进行存储和分析。
大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。
当前用于分析大数据的工具主要有Hadoop。Hadoop旨在通过一个高度可扩展的分布式批量处理系统,对大型数据集进行扫描,以产生其结果。Hadoop项目包括三部分,分别是Hadoop Distributed FileSystem(HDFS)、HadoopMapReduce编程模型,以及Hadoop Common。不适合使用Hadoop来解决的问题:1、最最重要一点,Hadoop能解决的问题必须是可以MapReduce的;2、数据结构不满足key-value这样的模式的;3、Hadoop不适合用来处理大批量的小文件;4、Hadoop不适合用来处理需要及时响应的任务,高并发请求的任务。
未来,数据可能成为最大的交易商品。但数据量大并不能算是大数据,大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。在他看来,未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。据统计,大数据所形成的市场规模在51亿美元左右,而到2017年,此数据预计会上涨到530亿美元。
我对大数据和与云计算的看法:
云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互,是分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等传统计算机和网络技术发展融合的产物。
大数据挖掘常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。只有在云计算产业已经规模化发展 3 年之后,分布式结构计算才给大数据提供了记录的载体。可以说,云计算使大数据变成可能,打个比方,云计算充当了工业革命时期的发动机的角色,而大数据则是电,大数据是要依靠云计算技术来进行存储和计算的。目前,云计算已经普及并成为IT行业主流技术,其实质是在计算量越来越大、数据越来越多、越来越动态、越来越实时的需求背景下被催生出来的一种基础架构和商业模式。云计算为大数据提供了可以弹性扩展,相对便宜的存储空间和计算资源,使得中小企业也可以像亚马逊一样通过云计算来完成大数据分析。大数据技术是云计算技术的延伸。大数据技术涵盖了从数据的海量存储、处理到应用多方面的技术,包括海量分布式文件系统、并行计算框架、NoSQL数据库、实时流数据处理以及智能分析技术如模式识别、自然语言理解、应用知识库等等。
大数据和云计算肯定是未来的发展所向,所以我们要学好很多算法知识才能弥补我们在编程过程中的不足之处。
基于云计算的数据挖掘的优势
(1)由于数据挖掘处理的数据足海量的,要从海量的数据中挖掘出理解的知识,大规模的数据挖掘足必须的。并且随着互联网上数据的快速增长,数据挖掘的任务远比搜索任务要复杂,导致了在挖掘过程中需要有很好的开发环境和应用环境。这种情况下,基于云计算的方式是比较合适的。
(2)基于云计算实现低成本分布式并行计算环境,因此,企业的数据处理成本大大的降低,同时也不再依存于高性能的机器。
(3)基于云计算的数据挖掘开发方便,屏蔽了底层。在并行化条件下。云计算能够利用原有设备提高对大规模数据的处理能力和速度,既保证了容错性,也增加结点。
总结