7 月 9 日,GOTC 2021 全球开源技术峰会上海站与 WAIC 世界人工智能大会共同举办,峰会聚焦 AI 与云原生两大以开源驱动的前沿技术领域,邀请国家级研究机构与顶级互联网公司的一线技术专家,为参会的开发者和技术爱好者带来了最硬的行业技术干货,提供了一个难得的技术交流平台。
在本次会议上,腾讯云高级工程师高策进行了题为“公有云上构建云原生 AI 平台的探索与实践”的技术分享,介绍了 AI 类业务在公有云上的现状以及相应的技术选型和面临的问题。最后通过分析开源社区和业界的趋势,与听众分享了我们对于未来全弹性的 AI 基础设施的展望。
本文由此次分享演讲内容整理而成,分享给大家一起回顾精彩内容。
关注【腾讯云原生】公众号,后台回复关键词【云原生AI】可获取演讲PPT原稿。
背景与现状深度学习发展至今,新的模型结构层出不穷。自 2018 年 GPT-1、Bert 相继问世,模型结构的参数量呈指数级增长。目前 Transformer 等结构不仅在自然语言处理领域发光发热,在计算机视觉等领域,也呈野火燎原之势。由此可见,未来对于算力和显存的需求会越发强烈。而以 Nvidia 为代表的硬件厂商提供的硬件性能却并不能与之同步提高。上图展示了两者之间的鸿沟,红色线条是模型参数规模的变化趋势,目前正在以每年 120 倍的速度提升。而绿色线条代表的显存容量每年提高的速度只有 2 倍。
因此,无论是在计算机视觉、自然语言处理等领域,还是互联网行业落地广泛的搜索广告推荐领域,分布式训练都成为了主流训练方式。
与之相对应的,深度学习框架也呈百花齐放的态势。传统的框架如 TensorFlow、PyTorch、Keras 仍然十分流行。而一些新的框架也逐渐出现,比如微软的 DeepSpeed、百度的 Paddle 等。
总结来说,目前 AI 在工业界的各个领域都有了广泛的落地。传统的搜索广告推荐领域自不必说,在视觉与自然语言处理领域,基于深度学习的方法已经成为了 state-of-art。在游戏、机器人等领域,强化学习也在慢慢走向生产。为了满足业务对复杂模型的需求,新的硬件和框架层出不穷。当然,还有一个非常明显的趋势,不少 AI 类业务正在上公有云,希望借助公有云的弹性计算能力降低算力成本,提高效率。
在公有云上的 AI 落地接下来,我们介绍一下在服务公有云上的客户时关于云原生 AI 的一些观察。
基于公有云的云原生 AI 目前正在逐渐落地,其中既包括稀疏类的搜索/广告/推荐业务,也包括稠密类的计算机视觉等业务。互联网领域的推荐场景落地相对较多。也正是由于搜索/广告/推荐业务场景复杂,端到端延迟要求低,因此改造的成本相对较高,所以大多数业务,尤其是离线训练过程,仍然不能很好地利用云的弹性能力。
与此同时从深度学习框架的角度看,目前绝大多数的业务仍然在使用 TensorFlow。这与之前的观察有一定的相关性。搜索/广告/推荐业务中 TensorFlow 仍然占据了绝对的市场。但是目前 PyTorch 的使用也越来越多,尤其是在计算机视觉、自然语言处理等领域。
腾讯云原生AI服务结合我们的这些观察和实践,腾讯云原生团队围绕着 Kubeflow 构建了腾讯云容器服务的云原生 AI 产品化方案。目前已经开始免费内测,欢迎联系我们试用,您的任何建议都会成为我们的宝贵动力。
腾讯云云原生AI服务为用户提供了 AI环境的快速交付以及管理能力、弹性的 Jupyter 服务、以及分布式模型服务等能力,目前关于模型管理等产品特性也在逐步建设中。
此外,为了解决带宽性能的瓶颈问题,我们不仅在存储端联合腾讯 COS 团队,借助 GooseFS 缓存引擎优化,而且在计算端联合腾讯云优图实验室,借助其在训练与推理上多年来的经验沉淀,准备推出高度优化的深度学习框架。我们会充分利用云原生AI作为统一窗口的优势,与腾讯云多个团队合作共建平台,提供开箱即用的产品化能力,反哺客户与社区。
更多关于云原生AI的最佳实践会在我们后续的《云原生AI标准指南》以及《云原生AI前沿观察》系列中推出。