于是,spark出现了,它的核心或者初衷是解决了mr运算速度的问题,因为它是尽可能基于内存的数据交换,和磁盘速度相比自然有一个量级的提升。不要小看这一个量级,有的东西的前提就是基于这一个量级(比如超过一天就无效,而在几小时内则是有效的)。而后又有了spark生态圈的繁荣昌盛,极大推动了大数据生态的发展。spark可以说也是一个质的改变。
但spark遇到了一个难以解决的问题,即它的架构是基于批处理的,批处理领域无可挑剔,挑剔的是人。人们要求大数据系统能够实时反馈业务变化,于是spark尴尬了,于是storm出现了。(不了解)
flink找到了批处理与流处理的间隙,一把杀向市场,提出了批流合一,再加上各大厂商的鼎力相助,于是乎发展得如火如荼。但我只能给它打个中等分数,因为它只能算得量变而算不得质变。
花开两朵,话分两头。在另一条线上,分布式存储也发生了变化,如hive,pig,hbase,cassandra,presto,impala,sparksql,kylin, flinksql...