任务:通常图像特征很大,直接检索特征太慢
- 方法:
- 用二进制编码出一个哈希值来表达特征
- 对哈希值做高效的异或运算求相似度
- 模型(添加了对二进制编码的约束,希望绝对值与1尽量相近):
Cross-media analysis and reasoning: advances and directions
任务:
将文本,图像,语音,视频及其交互属性进行混合
多源融合+知识演化+系统演化
难点:
解决语义鸿沟(机器认识世界是什么)
意图鸿沟(机器理解人要达到什么目标)
离散的知识和连续的特征如何转化如何关联
典型问题:
跨媒体知识学习推理,多媒体情感分析
现状:
机器学习助力多媒体效果很好
多媒体助力机器学习还不成熟
任务:
跨媒体深度分析和综合推理
方法:
从浅层到深度
知识图谱指导多媒体分析,属性补全
深度学习+反馈(知识和规则进行反馈/强化学习)(黑箱方法)
统计推理,贝叶斯推理(白盒方法)
趋势:
- 知识表达理解,多媒体理解
图学习
- 对视觉数据可以计算相似度,对于整个数据集就可以得到一个相似度矩阵,学过图论的同学都知道,矩阵就是图
- 相似度矩阵 -> 图的邻接矩阵 -> 用图的方法对邻接矩阵进行优化
标号建模 标号平滑 标号学习
锚图学习(速度+)
- 这是一种coarse to fine的思路
- 利用数据点图,生成锚点图,先采一部分有代表性的数据(例如聚类中心)生成一个图模型,然后推理出其他图
- 图模型中需要建立表示矩阵(特征工程),邻接矩阵(度量学习),并加快相似度计算
高效锚图(性能速度+)
- 从数学上优化锚图的约束条件,使得优化问题的复杂度大大降低
层次化锚图(速度++)
- 建立多层的锚图,也就是对采样点再采样
- 锚点是线性增加的,也会增加得很快
对第一层采样的点做再采样,多层采样减少了锚点数目,从最少的锚点的层逐层推理
标号预测器(速度+++)
- 优化对锚点的标号(打伪标签进行半监督学习)
- 对最小的锚点层接一个优化器进行标号预测
主动学习(样本选择)
- 是一种hard mining的思路,选择更有用的样本作为锚点
- 减小标号的误差损失
对比Google Expander Graph Learning平台:经典方法,并行运算,而锚图可以通过并行进一步提升速度
视频问答任务:
输入视频,问题,输出答案
模型(层次记忆网络+视频时序推理):
对图像进行分层
对问题进行记忆
用文本和图像特征一同训练生成答案
用LSTM做时序推理
细粒度分类任务:
- 识别图像同一大类中的子类
挑战:
- 姿态视角不同导致类内差异大,外形颜色相似导致类间差异小
论文:Error-Driven Incremental Learning in Deep Convolutional Neural Network for Large-Scale Image Classification
将目标的多个类别按相似度划分为几个大类,
增加一个新的类别时,将其归入最相近的大类中,重用大类的参数,扩展小类分类层参数
利用类别子集合划分实现模型动态扩容,利用特征迁移学习实现训练加速(对类别做聚类)
The Application of Two-level Attention Models in Deep Convolutional Neural Network for Fine-grained Image Classification
给定图片-类别,不给出对象位置(bounding box)和局部的位置(part location),用Attention学习对象位置和局部特征