转自:https://blog.csdn.net/weixin_42164269/article/details/80613782
摘要
卷积神经网络(CNNs)最近在各种计算机视觉任务中非常成功,特别是那些与识别有关的任务。光流量估计并不在CNN能够成功完成的任务当中。本文提出了一种能够将光流估计问题作为监督学习任务的CNNs。我们提出并比较两个架构:一个通用架构和另一个架构,包括一个在不同的图像位置关联特征向量的层。由于现有的地ground truth数据集不够大,不足以训练CNN,所以我们生成了一个大型的合成Flying Chairs dataset。我们发现,在这种不现实的数据上训练的网络,仍然可以很好地推广到现有的数据集,比如Sintel和KITTI,在5到10 fps的帧率上达到了有竞争的精度。
1.介绍
卷积神经网络已成为计算机视觉的许多领域被选择使用的方法。它们通常适用于分类 [25, 24],但是最近提出的架构也允许对每个像素的预测,如语义分割[28]或对单个图像的深度估计[10]。在本文中,我们提出端到端的训练CNNs,学习对一对图片预测光流场。
虽然光流估计需要精确的定位每个像素,但它也需要在两个输入图像之间找到对应关系。这不仅涉及到学习图像特征表示,还包括学习如何在两个图像的不同位置匹配它们。在这方面,光流估计与以前的CNNs应用有本质上的不同。
由于不清楚这个任务是否可以用标准的CNN架构来解决,我们还额外开发了一个具有相关性层的结构,该层显式提供匹配功能。这种结构是端到端训练的。我们的想法是利用卷积神经网络的能力,在多个尺度和抽象层次上学习强大的特性,并帮助基于这些特征找到实际的对应关系。在相关层之上的层学习如何从这些匹配中预测光流。令人惊讶的是,用这种方式帮助网络是不必要的,即使是原始网络也能学会预测光流动。
训练一个网络来预测一般的光流需要一个足够大的训练集。尽管数据增加确实有帮助,但是现有的光流数据集仍然太小,不足以训练一个与艺术状态相媲美的网络。对于现实的视频材料来说,获得光流场的ground truth是非常困难的。在现实和数量之间平衡,我们生成了一个合成的Flying Chairs dataset,它由来自Flickr的随机背景图像组成,我们将它们和[1]中分割的图片叠加在一起。这些数据与现实世界没有什么共同之处,但是我们可以用定制的属性生成任意数量的样本。在这些数据上进行训练的CNNs,即使没有进行微调,也能很好地推广到现实中的数据集。
利用CNNs高效的GPU实现,我们的方法比大多数竞争对手都要快。我们的网络在Sintel数据集的完整分辨率下预测光流高达每秒10个图像对,在实时方法中达到最先进的精确度。
2. 相关工作
光流。自 Horn and Schunck [19]的工作以来,变分方法一直主导着光流估计。许多改进已经被引入[29, 5, 34]。最近的焦点是大规模的位移,组合匹配已经被集成到变分方法中[6,35]。[35] 的工作被称为Deep-Matching,并且 DeepFlow与我们的工作有关,它通过稀疏的卷积和最大池从细到粗的聚合特性信息。但是,它不执行任何学习,所有的参数都是手动设置的。继承工作[30]被称为EpicFlow,更强调了稀疏匹配的质量,因为[35]中的匹配只是在图像边界的情况下被插入到密集的光流场中。我们只使用一个变分方法来对卷积网络所预测的流场进行可选的细化,并且不需要任何手工方法来进行聚合、匹配和插值。
几位作者之前已经将机器学习技术应用于光流。Sun等人 [32]研究光流统计数据,并使用高斯比例混合学习规则; Rosenbaum等人[31]使用高斯混合模型建立光流的局部统计模型。Black等人[4]计算训练集光流场的主要组成部分。为了预测光流,他们估计了这些’basis flows’的线性组合的系数。其他方法训练分类器在不同的惯性估计中选择 [21] 或获得遮挡概率[27]。
在使用神经网络模型的视频帧之间,已经有了关于不受监督的学习差异或运动的研究。这些方法通常使用乘法交互来模拟一对图像之间的关系。然后可以从潜在的变量中推断出差异和光流。泰勒等人用分解的受限的、受限制的、有限制的、有限制的机器来完成任务。Konda和Memisevic 23使用了一种叫做“同步自动编码器”的特殊自动编码器。虽然这些方法在受控的设置中很好地工作,并且学习了在视频中对活动识别有用的特性,但是它们在现实的视频中并没有与经典的方法竞争。
卷积网络。用反向传播25的卷积神经网络最近被证明在Krizhevsky等人的大规模图像分类中表现良好。这使得在各种计算机视觉任务中应用cnn的工作开始激增。
虽然目前还没有研究用CNNs进行光学流动的研究,但已经有了与神经网络相匹配的研究。菲舍尔等人12种提取的特征表示,在受监督或无人监督的情况下接受训练,并根据欧氏距离来匹配这些特征。Zbontar和LeCun 36训练CNN的一个暹罗架构来预测图像的相似度。这些方法与我们的方法有很大的不同,那就是它们是基于补丁的,并且将空间聚合留给后处理,而本文中的网络直接预测了完整的流场。
CNNs最近的应用包括语义划分11、15、17、28、深度预测10、关键点预测17和边缘检测13。这些任务类似于光流估计,因为它们涉及到每个像素的预测。由于我们的体系结构很大程度上受到了这些像素预测任务最近的进展的启发,我们简要地回顾了不同的方法。
最简单的解决办法是在“滑动窗口”中应用传统的CNN,因此为每个输入图像8、11计算一个单一的预测(例如类标签)。这种方法在许多情况下都很有效,但也有缺点:高计算成本(即使使用了优化的实现,包括重新使用中间特性图)和每个补丁的特性,不允许考虑全局输出属性,例如锐边。另一种简单的方法是将所有的特性图都添加到所需的全部分辨率,并将它们堆叠在一起,从而形成一个连接的每个像素特征向量,可以用来预测感兴趣的值。
艾根等人通过训练一个额外的网络来完善一个粗糙的深度地图,这个网络可以作为输入的粗略预测和输入图像。Longetal。28和Dosovitskiy等人9次迭代地改进粗糙的功能图,并使用“向上卷积”层。我们的方法融合了两种作品的思想。与Long等人不同,我们的“卷积”不仅是粗糙的预测,还包括整个粗糙的特征图,允许将更多的高级信息传输到精细的预测中。与Dosovitskiy等人不同的是,我们将“up卷积”的结果与网络的“收缩”部分连接起来。
3.网络结构
【转】FlowNet翻译
内容版权声明:除非注明,否则皆为本站原创文章。