关于大数据技术的一点思考 (2)

日期：2021-06-18 栏目：程序人生浏览：次

于是，spark出现了，它的核心或者初衷是解决了mr运算速度的问题，因为它是尽可能基于内存的数据交换，和磁盘速度相比自然有一个量级的提升。不要小看这一个量级，有的东西的前提就是基于这一个量级（比如超过一天就无效，而在几小时内则是有效的）。而后又有了spark生态圈的繁荣昌盛，极大推动了大数据生态的发展。spark可以说也是一个质的改变。

但spark遇到了一个难以解决的问题，即它的架构是基于批处理的，批处理领域无可挑剔，挑剔的是人。人们要求大数据系统能够实时反馈业务变化，于是spark尴尬了，于是storm出现了。（不了解）

flink找到了批处理与流处理的间隙，一把杀向市场，提出了批流合一，再加上各大厂商的鼎力相助，于是乎发展得如火如荼。但我只能给它打个中等分数，因为它只能算得量变而算不得质变。

花开两朵，话分两头。在另一条线上，分布式存储也发生了变化，如hive，pig，hbase，cassandra，presto，impala，sparksql，kylin, flinksql...

转载注明出处：https://www.heiqu.com/zywfwj.html

关于大数据技术的一点思考 (2)

相关推荐