当前盘古系列超大规模预训练模型,包括NLP大模型、CV大模型、多模态大模型、和科学计算大模型。 模型大意味着它吸收了海量数据知识,以盘古NLP大模型为例,它学习了40TB的中文文本数据;盘古CV大模型则包含了30亿+参数。这些数据提高了大模型的泛化能力,提升算法对新鲜样本的适应能力,从而学到隐含在数据背后的规律,减少对领域数据标注的依赖。
谢凌曦进一步解释道,一方面大模型可以从无标注数据上更加通用的将知识迁移到目标任务上,进而提升任务性能;另一方面,通过预训练过程学习到更好的参数初始点,使得模型在目标任务上只需少量数据就能达到不错的效果。
当大模型可以从小数据样本中学习更多,就能帮助我们打开走向通用AI的大门,它可以解决AI模型定制化和应用开发碎片化的难题。
谢凌曦给我们算了一笔账,他认为AI算法落地难不是因为它无法解决实际问题,而是应用场景太狭窄,每个痛点都需要定制化开发,从而导致投入的成本和人力过高。
一旦场景变化,整个模型可能都需要重新开发。而大模型是一种工业化AI开发的新模式,可以解决小模型的定制化难题,让一个模型可以应用到多个场景中,让AI真正落地到千行百业中。
所以,作为这个时代发展的必然产物,大模型值得我们下功夫去挖掘,去探索深度学习、乃至AI的下一个阶段会是怎样的形态。
在这之前,我们需要先弄明白大模型是如何被炼成的。
不止参数,盘古NLP和CV大模型有更多“绝招”谷歌1月份提出1.6万亿参数大模型Switch Transformer;
英伟达、斯坦福联合MSR,共同训出了10000亿参数的GPT;
智源研究院发布1.75万亿参数大模型悟道2.0;
……
在各种新闻报道中,我们很容易将大模型的突破归功于亿级别的参数。
谢凌曦推翻了这个刻板印象:“量大和多样是大模型的必然要求,但参数并不是衡量模型能力的最佳指标。如果将大模型训练的中间状态都存储下来,做个简单的融合,我们甚至可以把模型的参数量乘以一个非常的数,甚至可以说现在已经有百万亿、千万亿参数的模型,但这并不会对模型的效果有很大的帮助。因此,参数量这个指标,并不是大模型强弱的最终评定标准。”
大模型是一种统筹了数据预处理、模型架构、算法训练与优化的一套完整体系,即便有足够的算力、原始数据、原始模型,也并不意味能够做出真正跑得通的大模型,这其中非常考验技术研发和协同能力。
但毋庸置疑的是,数据越多,大模型学到的也就越多。“只要你给它足够多的数据,让他‘死记硬背’,它的理解能力确实会增强。”什么样的数据决定了模型有什么样的基本效果。谢凌曦表示,基于大量的参数,模型能够学会数据之间的关系,抽象出逻辑能力,更加智能化。
盘古NLP大模型在最近的 CLUE 榜单上,盘古的NLP模型在总榜、阅读理解排行榜和分类任务排行榜上都位列第一,总榜得分比第二名高出一个百分点。为了说明盘古的NLP模型是如何在理解能力上接近人类的,回到文章的开头,谢凌曦举了我们开篇提到的那个“锲而不舍”的例子解释:
小明在读书,通过不断坚持,克服困难最后成功了。
小红在画画,期间遇到了很多困难,最后也完成了这副画作。
人类可以很容易的通过逻辑判断能力知道两件事表达的是同一个意思:锲而不舍,但大模型需要大量的数据投喂和学习,去捕捉元素与元素之间的关系,比如两段文本之间的关系,几段文本之间,哪两段之间关系更近一些,才能得出逻辑性的判断结论。
还是上面的例子,如果把2改成为“小明在读一本书,期间遇到很多困难,可最后也没能读完”,这样1和2的文字非常相似,但其实两者表达的是完全不同的含义。
大模型需要学会判断这种关系,谢凌曦解释道:“表征(从文本和图像中直接抽取的简单特征)和语义之间的关联性是极其复杂的,人能够理解,但让计算机去理解并建立计算模型就非常困难,大模型就希望以大数据的方式以及堆砌大量可训练参数去完成这件事。”
如果想要大模型理解我们的逻辑世界,参数之外的功夫也至关重要。
首先,千亿参数的大模型每优化一次就会耗费巨大的成本,牵一发而动全身。所以谢凌曦和团队选择在预训练阶段加入基于prompt的任务,降低微调难度,解决以往大模型为不同行业场景进行微调的困难。在下游数据充足时,微调难度的降低使得模型可以随着数据变多而持续优化;在下游数据稀缺时,微调难度的降低使得模型的少样本学习效果得到显著提升。