华为高级研究员谢凌曦：下一代AI将走向何方？盘古大模型探路之旅 (4)

日期：2021-12-28 栏目：程序人生浏览：次

华为MindSpore创新性地采用了“流水线并行、模型并行和数据并行”的多维自动混合并行技术，大幅降低了手动编码的工作量，并提升集群线性度20%。MindSpore开源框架加持，如何「炼出」首个千亿参数、TB级内存的中文预训练语言模型？细致解读了这些关键技术。

ModelArts平台提供E级算力调度，同时结合物理网络拓扑，提供动态路由规划能力，为大模型训练提供了最优的网络通信能力。

但众所周知，大模型之所以大，根源在于“数据多、模型大”，这就带来模型的训练成本高。以GPT-3为例，训练一次成本是1200万美金。谢凌曦感慨道，“大模型调参本身就非常困难，每一次模型训练之前，都需要事先在很多小的场景中做验证工作。每一次模型的训练都需要确保万无一失，不能出现已经开始训练，却有一个Bug存在的现象”。

为“应用”而生，盘古赋能更多用户

大模型训练在各方面突破，也为缺乏大量数据的行业铺上接入智能时代的轨道。正如华为云人工智能领域首席科学家、IEEE Fellow田奇教授在发布盘古大模型所提到的，盘古大模型是为各行业的应用而生，盘古具备前所未有的泛用性，无论是2B场景或是2C场景。

行业知识来源于行业数据，盘古团队使用了大量行业语音和文本数据，借助这些数据进行微调，模型的行业特定意图和知识理解能力得以大幅提高。

以盘古CV大模型为例，其在电力巡检行业中表现出超强的应用能力。它利用海量无标注电力数据进行预训练，并结合少量标注样本微调的高效开发模式，节省人工标注时间。在模型通用性方面，结合盘古搭载的自动数据增广以及类别自适应损失函数优化策略，极大地降低了模型维护成本。

谢凌曦还谈到，除了行业的应用，面向开发者方面，盘古大模型正在逐步上线到AI资产共享社区（AI Gallery）。后期会陆续开启邀测制，请大家敬请期待。在平台上盘古会开发出一些比较通俗易用的工作流：如果你是有一定基础的开发人员，可以从工作流中做更多的定制化开发，更好地释放预训练模型的能力；如果你只是一个AI开发小白，想用大模型做简单的AI开发，盘古也会给你更加通俗易懂的界面，让大家用一些拖拉拽的方式去实现。后续盘古会针对开发者推出系列的课程，指导开发者基于盘古大模型在实践场景中开发应用。

另一方面，盘古也希望和开发者共成长。“大模型只是一个抓手，让它应用到实际场景中。不仅更好的帮助用户提高训练的进度和缩短训练的时间，而且模型上的应用数量增多，用户的成本自然而然就降低了。” 谢凌曦表示，盘古的发展单靠我们团队是远远不够的，我们还需要和开发者一起建设好这个生态。

最后

谈到盘古大模型的未来，谢凌曦有个简单的小目标——把盘古推向下一个技术爆发点。AI大模型是深度学习的最高阶段，往下走可能是一条平的直线，大家都在等待跳跃的那一天。华为云一直在努力，用各种原创技术去推动，解决AI开发者实际会遇到的问题，最本质的目的是赋能千行百业的AI落地。

道阻且长，行则将至。

正如盘古大模型的名字一样，华为也希望以大模型为抓手，把AI推向一个前所未有的高度，让我们往下一代AI去走，劈开AI未来道路上的“混沌”。

转载注明出处：https://www.heiqu.com/zwjdjx.html

华为高级研究员谢凌曦：下一代AI将走向何方？盘古大模型探路之旅 (4)

相关推荐