技术解密 |阿里云多媒体 AI 团队拿下 CVPR2021 5 冠 1 亚成绩的技术分享

技术解密 |阿里云多媒体 AI 团队拿下 CVPR2021 5 冠 1 亚成绩的技术分享

6 月 19-25 日,备受全球瞩目的国际顶级视觉会议 CVPR2021(Computer Vision and Pattern Recognition,即国际机器视觉与模式识别)在线上举行,但依然人气爆棚,参会者的激情正如夏日般火热。

今年阿里云多媒体 AI 团队(由阿里云视频云和达摩院视觉团队组成,以下简称 MMAI)参加了大规模人体行为理解公开挑战赛 ActivityNet、当前最大时空动作定位挑战赛 AVA-Kinetics、超大规模时序行为检测挑战赛 HACS 和第一视角人体行为理解挑战赛 EPIC-Kitchens 上的总共** 6 个赛道,一举拿下了 5 项冠军和 1 项亚军**,其中在 ActivityNet 和 HACS 两个赛道上连续两年蝉联冠军!

顶级挑战赛战绩显赫

大规模时序动作检测挑战赛 ActivityNet 于 2016 年开始,由 KAUST、Google、DeepMind 等主办,至今已经成功举办六届。

该挑战赛主要解决时序行为检测问题,以验证 AI 算法对长时视频的理解能力,是该领域最具影响力的挑战赛之一。历届参赛者来自许多国内外知名机构,包括微软、百度、上交、华为、商汤、北大、哥大等。

今年阿里云 MMAI 团队最终以 Avg. mAP 44.67% 的成绩获得该项挑战赛的冠军!

技术解密 |阿里云多媒体 AI 团队拿下 CVPR2021 5 冠 1 亚成绩的技术分享

图 1 ActivityNet 挑战赛证书

**时空动作定位挑战赛 AVA-Kinetics **由 2018 年开始,至今已成功举办四届,由 Google、DeepMind 和 Berkeley 举办,旨在时空两个维度识别视频中发生的原子级别行为。

因其难度与实用性,历年来吸引了众多国际顶尖高校与研究机构参与,如 DeepMind、FAIR、SenseTime-CUHK、清华大学等。

今年阿里云 MMAI 团队以 40.67% mAP 击败对手,获得第一!

技术解密 |阿里云多媒体 AI 团队拿下 CVPR2021 5 冠 1 亚成绩的技术分享

图 2 AVA-Kinetics 挑战赛获奖证书

超大规模行为检测挑战赛 HACS 始于 2019 年,由 MIT 主办,是当前时序行为检测任务中的最大挑战赛。该项挑战赛包括两个赛道:全监督行为检测和弱监督行为检测。

由于数据量是 ActivityNet 的两倍以上,因此具有很大的挑战性。历届参赛队伍包括微软、三星、百度、上交、商汤、西交等。

今年阿里云 MMAI 团队同时参加两个赛道,并分别以 Avg. mAP 44.67% 和 22.45% 双双夺冠!

技术解密 |阿里云多媒体 AI 团队拿下 CVPR2021 5 冠 1 亚成绩的技术分享

图 3 HACS 挑战赛两个赛道的获奖证书

第一视角人体动作理解挑战赛 EPIC-Kitchens 于 2019 年开始,至今已经举办三届,由 University of Bristol 主办,致力于解决第一视角条件下的人体动作和目标物体的交互理解问题。

历年的参赛队伍包括百度、FAIR、NTU、NUS、Inria-Facebook、三星(SAIC-Cambridge)等。

今年阿里云 MMAI 团队参加其中时序动作检测和动作识别两个赛道,分别以 Avg. mAP 16.11% 和 Acc. 48.5% 获得两项挑战赛的冠军和亚军!

技术解密 |阿里云多媒体 AI 团队拿下 CVPR2021 5 冠 1 亚成绩的技术分享

图 4 EPIC-Kitchens 挑战赛获奖证书

四大挑战的关键技术探索 行为理解挑战赛主要面临四大挑战:

首先是行为时长分布广,从 0.5 秒到 400 秒不等,以一个 200 秒的测试视频为例,每 1 秒采集 15 帧图像,算法必须在 3000 帧图像中精确定位。

其次是视频背景复杂,通常具有很多不规则的非目标行为嵌入在视频中,极大的增加了行为检测的难度。

再者是类内差较大,相同行为的视觉表现会因个体、视角、环境的变换而发生明显的变化。

最后是算法检测人体动作还面临人体之间的互相遮挡、视频分辨率不足、光照、视角等变化多样的其他干扰。

在本次挑战赛中,该团队之所以能够取得如此出色的成绩,主要是由其背后先进技术框架 EMC2 支撑,该框架主要对如下几个核心技术进行探索:

(1)强化基础网络的优化训练

基础网络是行为理解的核心要素之一。

在本次挑战赛中,阿里云 MMAI 团队主要对以下两方面进行探索:深入研究 Video Transformer (ViViT);探索 Transformer 和 CNN 异构模型的互补性。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zysfdg.html