深度解密：微软小冰如何获得更多新技能

日期：2021-01-14 栏目：破解天下浏览：次

2019年8月，第七代微软小冰升级了微软小冰的部分核心技术，主要包括核心对话引擎、全双工语音及多模态交互感官等。同时拓展上线了多个第三方合作伙伴平台的小冰产品，产品形态涵盖社交对话机器人、智能语音助理、人工智能内容创作和生产平台等。

但微软小冰是如何获取这些新技能的？在初冬的一个下午，微软小冰首席科学家宋睿华、微软小冰首席NLP科学家武威和微软小冰首席语音科学家栾剑为从多维度对第七代微软小冰背后的故事进行了解析。

深度解密：微软小冰如何获得更多新技能

揭秘：第七代微软小冰的新技能

微软小冰由微软（亚洲）互联网工程院于2014年5月正式推出，是一个融合了自然语言处理、计算机语音和计算机视觉等技术的完备的人工智能底层框架和系统。

目前，第七代微软小冰已成为全球最大的跨领域人工智能系统之一，产品形态涵盖社交对话机器人、智能语音助理、人工智能内容创作和生产平台等。在全球多个国家，微软小冰单一品牌已覆盖6.6亿在线用户、4.5亿台第三方智能设备和9亿内容观众，在交互场景大幅度拓宽的情况下，微软小冰与用户的单次平均对话轮数（CPS）仍保持在23轮。

深度解密：微软小冰如何获得更多新技能

说：灵活性是小冰的新属性

武威博士主要介绍了他所研制的更加主动、自主的学习方式，和对微软小冰管理、关联的方式。武威介绍称，小冰发展的目标是成为一个“自我完备的对话机器人。“他应该具有的能力包括：1、学习。2、自主管理。3、连接。

其中，第七代微软小冰拥有一个有趣的应用就是共感模型，这也是自主管理的一部分。武威说：“共感模型的核心是说通过对话策略对整个的对话流程进行把控。共感模型背后实际上是有两个模型。模型一是回复生成模型。这个模型决定的是说我这个机器人说什么。模型二是策略决定模型。决定的是说我要怎么去说。”

深度解密：微软小冰如何获得更多新技能

因为有了这两个模型的结合，第七代微软小冰从原来基于上下文直接产生回复的模式，变成了从上下文到决策，然后再根据这个决策来决定对华人说什么。这也让微软小冰的回答更具有灵活性。在第七代微软小冰的优势项目中，多轮对话是交互过程中最重要的，因为它涉及到非常复杂的上下文的理解甚至说一些外部知识的引入。

武威介绍通过共感模型去把控整个的对话流程。同时，微软的工程师们还在工作中也提出了meta-word的概念，meta-word实际上代表了属性的组合。这种模型至少有几个好处。1、可解释性很强。2、可以把meta-word做成接口，工程师可以通过编辑这个接口，编辑meta-word中的属性，以及这个属性的值去打造具有各种各样的风格、情感、话题、意图等等各种各样的对话机器人。

武威说：“这个方案具有很好的扩展性，因为这些工程师们可以简单的通过增加、减少或者修改meta-word里面的属性值，就可以调整整个生成模型的效果。”

深度解密：微软小冰如何获得更多新技能

唱：小冰唱歌已有突破性飞跃

微软小冰首席语音科学家栾剑提到了小冰唱歌技术的进展。他透露，小冰是从2016年开始做唱歌的，之后经过努力，小冰在语音合成领域一些大的问题已经被解决了，团队就开始寻找一个更有挑战性的课题继续来做，所以就选择了唱歌。

选择唱歌主要有三个原因：唱歌的门槛比说话高，在技术上有难点；情感表达上更加丰富激烈一些，歌曲是一种喜闻乐见的形式；它是一个很重要的娱乐形式，唱歌做好了，应该是很有市场前景、很有方向的。

传统唱歌合成的方式，主要有两大类。第一类：单元拼接的方式。优点是简便易行，音质也可以保持最佳音质，但生成出来的歌会不自然。而第二类：参数合成的方法。就是通过声学参数里面可能包括能量谱、时长、音高等建模型，但在这个过程中会有音质的损失。

深度解密：微软小冰如何获得更多新技能

现在，微软小冰正在兼容这两种办法。最开始的模型就是从乐谱里面把那三大要素采集出来之后，分别对声谱参数、节奏序列、音高轨迹用三个模型分别建模。

转载注明出处：http://www.heiqu.com/a1b54be32fdcfbf1665ea23bd9c7c3a3.html

深度解密：微软小冰如何获得更多新技能

相关推荐