新的一年，来看看大数据与AI的未来展望

日期：2021-05-01 栏目：程序人生浏览：次

在数据爆炸与智能革命的新时代，新的平台与应用层出不穷，开源项目推动了前沿技术和业界生态快速发展。本次分享将以技术和生态两大视角来看大数据和人工智能技术的发展，通过分析当下热门的开源产品和技术，来梳理未来的行业生态以及技术趋势。

我们今天的主题分为三块，第一是从开源的角度看技术、产品和生态，第二，我们从腾讯云大数据的角度梳理开源的实践，并跟大家分享一下我们最近一段时间或者最近一年以来我们的贡献和成果。最后会跟大家一起探讨一下开源的大数据以及AI这个生态当中的一些热点和趋势。

开源：技术、产品与生态

最近在大数据这个圈子里，开源圈或者是整个大数据的圈子里有一个公共性的事件，做发行版的厂商，大数据领域两大技术巨头 Cloudera和Hortonworks突然宣布合并，这两个公司其实从开源界从商业界，都是互相打的不可开交的两个公司。从历史上去观察这两个公司，我们当时认为是完全不可能合并的两个公司，为什么呢会突然合并？

开源大数据的危机？

我之前曾经在其中一家公司工作过，长达4年时间。当时从我的观察，这两个公司在这段时间里面到了老死不相往来的地步，四年的时间只有一个工程师跳到了对方公司。但这样的公司在今天这样一个时代，大数据、AI或者云时代，这两个公司合并了。合并意味着什么？外界有很多猜想，这是强强联手，还是抱团取暖，是主动求变，还是来自资本的压力，一千个人有一千个答案。我们从外部角度可以看出一些端倪，或者说从整个开源的运动或者开源的社区，生态发展可以看出一些端倪。

第二个开源重要的消息就是说有些开源的厂商在最近这段时间里面，从完全开源的许可证协议转向了部分开源，或者说有条件的开源，把一个完全开放的生态变成了变更的许可证协议，mongoDB更改开源协议是可以继续用我的代码，如果把它作为一个服务开放出来的话，要开放所有的支撑服务代码。Redis加了一个规定是可以正常使用分发，但不能销售这个产品。我们看到这些曾经乐于开源的厂商，现在对开源的许可证加了很多限制和条款。

开源产品的“冰山困境”

总体来说，站在支持纯开源的、个人的角度来看，这是从开源到部分限制性的一种倒退。造成倒退的原因是什么呢？对于基于开源项目的产品，我的总结是可能面临所谓的冰山困境。什么意思？就是说从用户视角去看开源产品也好，或者说非开源的产品也好，可能很多时候关注的是产品的功能和性能。冰山下面的这些技术的复杂性、成熟度可能关注不足，可能在挑选类似功能产品的时候往往从功能、性能、价格等外部的维度角度来考虑。

基于用户对于功能、性能以及性价比的追求，软件供应商可能更加放大或者专注于这些差异化的软件的开发和研发。对于冰山底部的大开源平台，这个开源部分的能力，他本质上是属于同质化的。很多软件供应商会去想：如果我在这里投入大规模的研发，实际上与市场上的竞争对手的产品之间就体现不出差异性。所以这里的冰山困境是指对开源产品，不管是用户还是商业组织，会更多的关注水面以上的部分。造成的结果会是什么呢？如果大家真的只关注水面上的部分，只关心上层建筑是否搭的越来越高，越来越好看，而不注意维护冰山底座的部分，会造成底部消融，如果底部不稳，整座冰山都会出现问题，围绕开源项目所构建的生态体系就会垮掉。这样的事情发生的多了，会影响公众对开源项目与软件的信心，我们这样一个开源大发展的时代又会回退到闭源的状态。

开源的产品发展到今天，我们一起要反思一下，为什么会出现所谓的冰山困境，怎么样突破这些冰山困境。我觉得从一个开源软件的整个生命周期来看，我们可能有不一样的观点。对于开源软件供应商来说，开发阶段用所谓的拿来主义，基于现成的软件来构建，可以降低他的开发成本，包括在社区里面利用一些社区外部的资源来促进开发流程或者开发的进度，这些都是很好的布局。

但是对于测试部分和维护部分，不管是开源软件的发行商或是云厂商，可能都有关注不足的部分。什么意思？刚刚我们说到基于开源可以做开发，可以降低所谓的开发成本，但相应的测试成本并没有太多的降低，因为测试的复杂度很高，这些开源软件都是独立的社区去开发的。它们之间在版本发布的时间点上无法做到同步，所以这些不同步造成了很多时候版本之间有版本或者时间点上的冲突，需要你去测试不同软件之间的边界与协同。

转载注明出处：https://www.heiqu.com/wsxzys.html

新的一年，来看看大数据与AI的未来展望

相关推荐