看过上百部片子的这个人教你视频标签算法解析 (2)

通过根据每一个decoding time step的概率分布进行采样获得,是baseline output,通过最大化每一个decoding time step的概率分布输出获得,也就是a greedy search。论文里提到,利用CIDEr metric作为reward function,效果最好。

4、根据视频帧图片的标签,对视频打标签。具体有两种思路:

记录视频提取的所有帧图片中每一个出现的标签,以及标签出现的次数(有多少帧图片

被打上了这个标签)。按照出现次数排序。

1.将帧图片的最多前n个标签,输出为视频标签。

2.将帧图片中,出现次数大于阈值c的标签,,输出为视频标签。

数据示例:

img

其中1class表示一级类别,2class表示二级类别。

实验结果示例:

截取一些实验结果展示如下,其中output指模型输出的结果,reference指人工标定的参考结果。

img

img

总的来说,游戏类视频的数据量最大,效果较好;但具体不同英雄的视频数据如果不平衡,也会影响算法结果。其他类型视频数据不算太稀疏的效果也不错,长尾视频的效果不行。

总结:

数据预处理、模型结构、损失函数、优化方法等各方面,都还有很多值得根据视频打标签应用的实际情况进行调整的地方。后续再不断优化。方法和实验都还粗糙,希望大家多批评指导。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wsfsgz.html