大数据与 AI 生态中的开源技术总结 (3)

img

大数据与AI领域的热点开源技术 开源大数据技术发展历程

Apache Hadoop是在2006年左右成立的,这十几年有了很大的发展,甚至可以说是如日中天的过程。近期的热点主要在云原生,包括与AI平台的集成与协同。还有一个简单的列表,列出大数据每个细分领域,比如:SQL,流计算等等,可以看到在每个领域都会有很多竞品和精品,为什么会有这么多出来?总有人对之前的项目不认同,或者认为还有改进的空间。从研发资源的组织来说,开源这种跨企业和组织的协同和传统的企业内组织是很不一样的。但从结果来看,开源是一种很有效的资源组织方式,既避免了大量的重复车轮子的工作,又保证了更新、更好的轮子能及时出现。

img

大数据与AI技术相互融合

对于数据的访问之间,我们计算和物理分离,有很强的优势。数据平台还会往外进展,可以把GPU能力集成,在这上面通过加强调度,统一数据的训练以及推理。包括Spark社区也提出了氢计划,在应用层把大数据和AI开源的框架全部串联在一起,通过分布式的调度方式,把这些框架调度到分布式数据与AI平台之上。

img

传统的机器学习和大数据,两个社区、两套技术,能不能做一个融合,或者有没有关联?相对于传统的机器学习,深度学习对于数据、大数据的利用,应该说效率更高。因为传统的机器学习到一定规模之后,训练的指标和效果就上不去了,但是Deep Learning是不一样的,海量的数据可以让大规模神经网络有更好的训练效果。腾讯也开源了Angel的框架。所以在融合的基础上,我们认为未来的技术方向,会是AI与大数据技术相互融合的过程,从原始数据导入到数据准备、数据训练到模型部署,整个是一套闭环,这是未来的一个趋势。

img

总结

最后做一个简单的总结,我们认为开源项目属于社会公共资源,就像是水,上善若水,水润万物,虽然需要有人来维护,但其核心属性仍然是免费的公共品。在开源生态圈的利益相关方,包括我们的用户,包括我们的软件提供商,包括我们的开发者,我们都是有义务来投入资源,来维护这片水源地的。我们需要建设好社区生态,让开发者可以对接用户的需求。未来这个社区的开发方向和用户实际的需求可以做直接的对接,而不一定通过软件供应厂商,因为厂商的优先级很多时候体现了付费客户的需求,尤其是大客户的优先需求。面对海量的开发者与社区用户,我们需要这样一个平台,让长尾的用户能够把声音传递到社区,和社区长尾的开发者对接,这样才有助于社区的健康发展。

我们要重视社区、重视人,而不是重视代码本身。有些公司开源的代码,会有人跳出来会说你这个代码写的不好,我觉得这是一个对开源非常不友好的行为。不管是任何公司开放任何代码,这都是值得鼓励的一个现象。如果代码写的不好,你可以帮助它变好,哪怕是写一个类似的东西开放出来和它竞争。开源在中国还是一个萌芽期,在这个情况下过分强调代码质量,而不是开源本身的行为,我觉得会有点拔苗助长。

最后一句话总结今天的演讲,第一个是作为我们的开发者来说应该大胆开源,把一些产品还有技术大胆的开源出去,开源有很多的商业模式,我觉得开源软件的商业模式在云时代下会越来越成功。第二个是对于用户来说,要放心、大胆的使用开源软件和技术,因为这个时代基于开源技术的产品完全可以满足大多数的场景和需求,而且能够保证你不被少数的闭源软件所绑架。

此文已由腾讯云+社区在各渠道发布

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wppzxf.html