1.2 大数据分析与管理技术 1.2.1 关于大数据
2008年,英国著名学术杂志《Nature》上推出了大数据的专刊。
美国一些知名数据管理领域的专家从专业角度出发联合发布了一份名为《大数据的机遇与挑战》(Challenges and opportunities with big data)的白皮书,从学术角度介绍了大数据的产生、处理流程和所面临的若干挑战。
在工业界,全球知名的咨询公司麦肯锡公司(McKinsey)2011年也发表了一份名为《大数据:下一个创新、竞争和生产力的前沿》(Big Data: the next frontier for innovation, competition and productivity)的详尽报告,对大数据带来的巨大影响、关键技术和应用领域进行了详尽阐述和分析。
美国奥巴马政府更是在2012年发布了“大数据研究和发展倡议”(Big data research and development initiative),斥资2亿多美元计划在科研、环境、生物医学等领域利用大数据分析管理技术取得新的突破。我国政府也于2015年发布了《中共中央关于制定国民经济和社会发展第十三个五年规划的建议》提出实施国家大数据战略,超前布局下一代互联网。
目前“大数据”(Big data)已成为一个炙手可热的名词。从表面上看,其表示数据规模的庞大,但仅仅从数据规模上无法区分“大数据”这一概念和以往的“海量数据”(Massive data)和“超大规模数据”(Very large data)等概念的区别。然而,至今仍没有一个对“大数据”公认的准确定义。
根据维基百科的解释,大数据指的是数据规模巨大到无法通过目前主流的软件工具在合理时间内完成处理的数据集。由此可见,随着时间的推移,计算机的计算能力、存储能力会不断提升,因此大数据的含义也会不断演化。
今天所说的大数据在未来可能就不算“大”了,但那时也一定仍会存在更大的数据是当时的技术处理不了的,因而仍会被称为大数据。可见,如何驾驭大数据将会成为人们长期需要面对的数据常态。
大数据的“4V”特性:
(1)体量大(Volume)。大数据体现在数据量极为庞大,其计量单位可以是TB级、PB级甚至更大的计量单位。
(2)速度快(Velocity)。大数据呈现出高速增长的态势,而且产生速度仍在不断加快。
(3)多样化(Variety)。大数据包含多种多样的数据类型,既可以是存储在二维表中的结构化数据,也可以是文本、视频、图像、语音、图(Graph)、文件等非结构化数据。
(4)价值高(Value)。大数据中蕴藏着巨大价值,但价值密度低。通过对大数据进行合理的分析,能够从中挖掘出很多有价值的信息,这些信息将有助于提高社会生产效率,提升人们生活质量,或者创造更大商业价值。
1.2.2 大数据存储技术
随着大数据时代的到来,传统关系型数据库的发展面对大数据时代的数据管理需求越来越力不从心,主要体现在:
• 无法保证对大数据的查询效率:在大数据时代,短短的1分钟时间内新浪微博可以产生2万条微博,苹果可以产生4.7万次应用下载记录,淘宝则可以卖出6万件商品,百度可以产生90万次搜索记录。可见对于上述公司而言很快就会积累超过10亿的数据量。然而,由于关系模型严谨得过于死板,例如复杂的事务处理机制就成为了阻碍其性能提升的桎梏,使得传统关系型数据库在一张包含10亿条记录的数据表之上进行SQL查询时效率极低。
• 无法应对繁多的数据类型:关系型数据库存储的是清洁规整的结构化数据,然而在大数据时代,数据种类繁多,包括文本、图片、音频和视频在内的非结构化数据所占比重更是超过了90%,这无疑是关系型数据库所不能应对的。