公有云上构建云原生 AI 平台的探索与实践 - GOTC 技术论坛分享回顾

日期：2021-12-28 栏目：程序人生浏览：次

7 月 9 日，GOTC 2021 全球开源技术峰会上海站与 WAIC 世界人工智能大会共同举办，峰会聚焦 AI 与云原生两大以开源驱动的前沿技术领域，邀请国家级研究机构与顶级互联网公司的一线技术专家，为参会的开发者和技术爱好者带来了最硬的行业技术干货，提供了一个难得的技术交流平台。

在本次会议上，腾讯云高级工程师高策进行了题为“公有云上构建云原生 AI 平台的探索与实践”的技术分享，介绍了 AI 类业务在公有云上的现状以及相应的技术选型和面临的问题。最后通过分析开源社区和业界的趋势，与听众分享了我们对于未来全弹性的 AI 基础设施的展望。

本文由此次分享演讲内容整理而成，分享给大家一起回顾精彩内容。

关注【腾讯云原生】公众号，后台回复关键词【云原生AI】可获取演讲PPT原稿。

背景与现状

公有云上构建云原生 AI 平台的探索与实践 - GOTC 技术论坛分享回顾

深度学习发展至今，新的模型结构层出不穷。自 2018 年 GPT-1、Bert 相继问世，模型结构的参数量呈指数级增长。目前 Transformer 等结构不仅在自然语言处理领域发光发热，在计算机视觉等领域，也呈野火燎原之势。由此可见，未来对于算力和显存的需求会越发强烈。而以 Nvidia 为代表的硬件厂商提供的硬件性能却并不能与之同步提高。上图展示了两者之间的鸿沟，红色线条是模型参数规模的变化趋势，目前正在以每年 120 倍的速度提升。而绿色线条代表的显存容量每年提高的速度只有 2 倍。

因此，无论是在计算机视觉、自然语言处理等领域，还是互联网行业落地广泛的搜索广告推荐领域，分布式训练都成为了主流训练方式。

公有云上构建云原生 AI 平台的探索与实践 - GOTC 技术论坛分享回顾

与之相对应的，深度学习框架也呈百花齐放的态势。传统的框架如 TensorFlow、PyTorch、Keras 仍然十分流行。而一些新的框架也逐渐出现，比如微软的 DeepSpeed、百度的 Paddle 等。

公有云上构建云原生 AI 平台的探索与实践 - GOTC 技术论坛分享回顾

总结来说，目前 AI 在工业界的各个领域都有了广泛的落地。传统的搜索广告推荐领域自不必说，在视觉与自然语言处理领域，基于深度学习的方法已经成为了 state-of-art。在游戏、机器人等领域，强化学习也在慢慢走向生产。为了满足业务对复杂模型的需求，新的硬件和框架层出不穷。当然，还有一个非常明显的趋势，不少 AI 类业务正在上公有云，希望借助公有云的弹性计算能力降低算力成本，提高效率。

在公有云上的 AI 落地

公有云上构建云原生 AI 平台的探索与实践 - GOTC 技术论坛分享回顾

接下来，我们介绍一下在服务公有云上的客户时关于云原生 AI 的一些观察。

基于公有云的云原生 AI 目前正在逐渐落地，其中既包括稀疏类的搜索/广告/推荐业务，也包括稠密类的计算机视觉等业务。互联网领域的推荐场景落地相对较多。也正是由于搜索/广告/推荐业务场景复杂，端到端延迟要求低，因此改造的成本相对较高，所以大多数业务，尤其是离线训练过程，仍然不能很好地利用云的弹性能力。

与此同时从深度学习框架的角度看，目前绝大多数的业务仍然在使用 TensorFlow。这与之前的观察有一定的相关性。搜索/广告/推荐业务中 TensorFlow 仍然占据了绝对的市场。但是目前 PyTorch 的使用也越来越多，尤其是在计算机视觉、自然语言处理等领域。

腾讯云原生AI服务

结合我们的这些观察和实践，腾讯云原生团队围绕着 Kubeflow 构建了腾讯云容器服务的云原生 AI 产品化方案。目前已经开始免费内测，欢迎联系我们试用，您的任何建议都会成为我们的宝贵动力。
腾讯云云原生AI服务为用户提供了 AI环境的快速交付以及管理能力、弹性的 Jupyter 服务、以及分布式模型服务等能力，目前关于模型管理等产品特性也在逐步建设中。
此外，为了解决带宽性能的瓶颈问题，我们不仅在存储端联合腾讯 COS 团队，借助 GooseFS 缓存引擎优化，而且在计算端联合腾讯云优图实验室，借助其在训练与推理上多年来的经验沉淀，准备推出高度优化的深度学习框架。我们会充分利用云原生AI作为统一窗口的优势，与腾讯云多个团队合作共建平台，提供开箱即用的产品化能力，反哺客户与社区。
更多关于云原生AI的最佳实践会在我们后续的《云原生AI标准指南》以及《云原生AI前沿观察》系列中推出。

落地实践

转载注明出处：https://www.heiqu.com/zwjddw.html

公有云上构建云原生 AI 平台的探索与实践 - GOTC 技术论坛分享回顾

相关推荐