作为主要的基础网络,ViViT 的训练同样包括预训练和微调两个过程,在微调过程,MMAI 团队充分分析包括输入尺寸、数据增广等变量的影响,找到适合当前任务的最佳配置。
此外,考虑 Transformer 和 CNN 结构互补性,还使用了 Slowfast、CSN 等结构,最终通过集成学习分别在 EPIC-Kitchens、ActivityNet、HACS 上取得 48.5%、93.6%、96.1% 的分类性能,相较于去年的冠军成绩,有着明显的提升。
图 5 ViViT 的结构及其性能 (2)视频理解中的实体时空关系建模
对于时空域动作检测任务而言,基于关系建模学习视频中的人 - 人关系、人 - 物关系、人 - 场景关系对于正确实现动作识别,特别是交互性动作识别而言是尤为重要的。
因此在本次挑战赛中阿里云 MMAI 重点对这些关系进行建模分析。
具体地,首先定位视频中的人和物体,并分别提取人和物的特征表示;为了更加细粒度地建模不同类型的动作关系,将上述特征与全局视频特征在时空域结合以增强特征,并分别在不同的时域或空域位置间应用基于 Transformer 结构的关系学习模块,同时不同位置的关联学习通过权重共享的方式实现对关联区域的位置不变性。
为了进一步建模长序时域关联,我们构建了结合在线和离线维护的两阶段时序特征池,将视频片段前后的特征信息融合到关联学习当中。
最后,经过关联学习的人体特征被用于进行动作识别任务,基于解耦学习的方式实现了在动作类别长尾分布下对困难和少量样本类别的有效学习。
图 6 关系建模网络
(3)基于动作提名关系编码的长视频理解在动作理解相关的多项任务上,在有限的计算条件下,视频持续时间较长是其主要的挑战之一,而时序关系学习是解决长时视频理的重要手段。
在 EMC2 中,设计了基于动作提名关系编码的模块来提升算法的长时感知能力。
具体地,利用基础行为检测网络生产出密集的动作提名,其中每个动作提名可以粗略视为特定动作实体发生的时间区间。
然后基于自注意力机制,在时间维度上对这些提名实体进行时序关系编码,使得每个动作提名均能感知到全局信息,从而能够预测出更加准确的行为位置,凭借此技术,EMC2 在 AcitivityNet 等时序行为检测上取得冠军的成绩。
图 7 动作提名间的关系编码
(4)基于自监督学习的网络初始化训练初始化是深度网络训练的重要过程,也是 EMC2 的主要组件之一。
阿里云 MMAI 团队设计了一种基于自训练的初始化方法 MoSI,即从静态图像训练视频模型。
MoSI 主要包含两个组件:伪运动生成和静态掩码设计。
首先根据滑动窗口的方式按照指定的方向和速度生成伪视频片段,然后通过设计合适的掩码只保留其局部区域的运动模式,使网络能够具有局部运动感知的能力。最后,在训练过程中,模型优化目标是成功预测输入伪视频的速度大小和方向。
通过这种方式,训练的模型将具有感知视频运动的能力。在挑战赛中,考虑到不使用额外数据的规则,仅在有限的挑战赛视频帧做 MoSI 训练,便可取得明显的性能提升,保证了各项挑战赛的模型训练质量。
图 8 MoSI 训练过程及其语意分析
“视频行为分析一直都被认为是一项非常具有挑战性的任务,主要源于其内容的多样性。
尽管基础机器视觉中各种先进的技术被提出,我们在此次竞赛的创新主要包括:
1)对自监督学习和 Transformer+CNN 异构融合的深度探索;
2)视频中不同实体间关系建模方法的持续研究。
这些探索确认了当前先进技术(如自监督学习)对视频内容分析的重要性。