第一届“多模态自然语言处理研讨会”精彩回顾(免费获取PPT)

第一届“多模态自然语言处理研讨会”精彩回顾(免费获取PPT)

近年来,人工智能 (AI) 在涉及单一模态如语音、自然语言和视觉等领域,取得了重大突破。在单一模态的任务上,如物体识别、语音识别、机器翻译等,AI 系统在特定数据集上的表现水平与人类相当。随着单模态人工智能潜在问题的解决,研究人员意识到更高层次的AI任务往往涉及到跨多种模式的更复杂的信息处理。同时,局限于单一模态的研究往往不能充分利用跨模态信息。因此,研究多模态建模与学习方法具有重要的意义。

在近期举行的国际自然语言处理与中文计算会议 (NLPCC 2020)上,  京东智联云举办了第一届“多模态自然语言处理研讨会”。该研讨会邀请了多位学术大咖进行学术分享,吸引了自然语言处理、多模态、图像处理等多领域众多学者参与。各位学者就跨语言跨模态信息处理、多模态预训练、AI与艺术、视觉与语言交互、多模态对话系统等领域的研究热点和技术应用展开讨论,反响热烈。

第一届“多模态自然语言处理研讨会”精彩回顾(免费获取PPT)

多模态已成为新闻报道和信息交流的主要呈现形式,多模态自动摘要技术,旨在利用计算机自动实现从多个模态的信息中压缩生成摘要的过程,可以广泛应用于新闻推送和电商推荐等多个领域。

在本次研讨会中,来自中科院自动化所的研究员张家俊老师,为大家介绍其所在的课题组近年来在多模态摘要方法和评价等方面的研究进展。张老师重点介绍了异源多模态摘要生成的研究方法变迁:从抽取式方法到生成式方法,再到目前融入多模态注意力机制的图文式摘要生成方法等。同时,张老师也介绍了多模态自动摘要的自动评价方法: 综合考虑文本和图片重要性以及文本图片相关性更加贴近人工打分。

第一届“多模态自然语言处理研讨会”精彩回顾(免费获取PPT)

第一届“多模态自然语言处理研讨会”精彩回顾(免费获取PPT)

第一届“多模态自然语言处理研讨会”精彩回顾(免费获取PPT)

第一届“多模态自然语言处理研讨会”精彩回顾(免费获取PPT)

▲以上是张家俊老师分享部分PPT,完整50页PPT,关注公众号在后台回复“NLPCC”,获取下载链接▲

第一届“多模态自然语言处理研讨会”精彩回顾(免费获取PPT)

预训练模型的出现,使自然语言处理由原来的手工调参、依靠机器学习专家的阶段,进入到可以大规模、可复制的大工业施展阶段。此阶段基于预训练模型+微调机制,具备很高的可扩展性,展现出很高潜力。而当前研究也从单一语言扩展到多模态。

微软亚洲研究院的高级研究员段楠博士为大家介绍了多模态预训练模型的最新研究进展。他首先回顾典型的预训练模型。随后,重点介绍3种最新的多模态预训练模型:Unicoder主要应用于跨语言的语言理解和生成任务;Unicoder VL专注于视频语言任务,对视频片段和对应的自然语言描述进行联合建模;CodeBERT则关注在代码语言任务的。段博士也和与会学者一起讨论当前多模态预训练的问题和可能的未来方向。

第一届“多模态自然语言处理研讨会”精彩回顾(免费获取PPT)

第一届“多模态自然语言处理研讨会”精彩回顾(免费获取PPT)

第一届“多模态自然语言处理研讨会”精彩回顾(免费获取PPT)

第一届“多模态自然语言处理研讨会”精彩回顾(免费获取PPT)

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzwpzs.html