华为高级研究员谢凌曦:下一代AI将走向何方?盘古大模型探路之旅 (4)

华为MindSpore创新性地采用了“流水线并行、模型并行和数据并行”的多维自动混合并行技术,大幅降低了手动编码的工作量,并提升集群线性度20%。MindSpore开源框架加持,如何「炼出」首个千亿参数、TB级内存的中文预训练语言模型?细致解读了这些关键技术。

ModelArts平台提供E级算力调度,同时结合物理网络拓扑,提供动态路由规划能力,为大模型训练提供了最优的网络通信能力。

但众所周知,大模型之所以大,根源在于“数据多、模型大”,这就带来模型的训练成本高。以GPT-3为例,训练一次成本是1200万美金。谢凌曦感慨道,“大模型调参本身就非常困难,每一次模型训练之前,都需要事先在很多小的场景中做验证工作。每一次模型的训练都需要确保万无一失,不能出现已经开始训练,却有一个Bug存在的现象”。

为“应用”而生,盘古赋能更多用户

大模型训练在各方面突破,也为缺乏大量数据的行业铺上接入智能时代的轨道。正如华为云人工智能领域首席科学家、IEEE Fellow田奇教授在发布盘古大模型所提到的,盘古大模型是为各行业的应用而生,盘古具备前所未有的泛用性,无论是2B场景或是2C场景。

行业知识来源于行业数据,盘古团队使用了大量行业语音和文本数据,借助这些数据进行微调,模型的行业特定意图和知识理解能力得以大幅提高。

以盘古CV大模型为例,其在电力巡检行业中表现出超强的应用能力。它利用海量无标注电力数据进行预训练,并结合少量标注样本微调的高效开发模式,节省人工标注时间。 在模型通用性方面,结合盘古搭载的自动数据增广以及类别自适应损失函数优化策略,极大地降低了模型维护成本。

谢凌曦还谈到,除了行业的应用,面向开发者方面,盘古大模型正在逐步上线到AI资产共享社区(AI Gallery)。后期会陆续开启邀测制,请大家敬请期待。 在平台上盘古会开发出一些比较通俗易用的工作流:如果你是有一定基础的开发人员,可以从工作流中做更多的定制化开发,更好地释放预训练模型的能力;如果你只是一个AI开发小白,想用大模型做简单的AI开发,盘古也会给你更加通俗易懂的界面,让大家用一些拖拉拽的方式去实现。后续盘古会针对开发者推出系列的课程,指导开发者基于盘古大模型在实践场景中开发应用。

另一方面,盘古也希望和开发者共成长。“大模型只是一个抓手,让它应用到实际场景中。不仅更好的帮助用户提高训练的进度和缩短训练的时间,而且模型上的应用数量增多,用户的成本自然而然就降低了。” 谢凌曦表示,盘古的发展单靠我们团队是远远不够的,我们还需要和开发者一起建设好这个生态。

最后

谈到盘古大模型的未来,谢凌曦有个简单的小目标——把盘古推向下一个技术爆发点。AI大模型是深度学习的最高阶段,往下走可能是一条平的直线,大家都在等待跳跃的那一天。华为云一直在努力,用各种原创技术去推动,解决AI开发者实际会遇到的问题,最本质的目的是赋能千行百业的AI落地。

道阻且长,行则将至。

正如盘古大模型的名字一样,华为也希望以大模型为抓手,把AI推向一个前所未有的高度,让我们往下一代AI去走,劈开AI未来道路上的“混沌”。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwjdjx.html