CNCC2017中的深度学习与跨媒体智能 (2)

任务:通常图像特征很大,直接检索特征太慢
 - 方法:
   - 用二进制编码出一个哈希值来表达特征
   - 对哈希值做高效的异或运算求相似度
   - 模型(添加了对二进制编码的约束,希望绝对值与1尽量相近):

多媒体与知识图谱

Cross-media analysis and reasoning: advances and directions

任务:

将文本,图像,语音,视频及其交互属性进行混合

多源融合+知识演化+系统演化

难点:

解决语义鸿沟(机器认识世界是什么)

意图鸿沟(机器理解人要达到什么目标)

离散的知识和连续的特征如何转化如何关联

典型问题:

跨媒体知识学习推理,多媒体情感分析

现状:

机器学习助力多媒体效果很好

多媒体助力机器学习还不成熟

任务:

跨媒体深度分析和综合推理

方法:

从浅层到深度

知识图谱指导多媒体分析,属性补全

深度学习+反馈(知识和规则进行反馈/强化学习)(黑箱方法)

统计推理,贝叶斯推理(白盒方法)

趋势:
 - 知识表达理解,多媒体理解

基于锚图的视觉数据分析

图学习
 - 对视觉数据可以计算相似度,对于整个数据集就可以得到一个相似度矩阵,学过图论的同学都知道,矩阵就是图
 - 相似度矩阵 -> 图的邻接矩阵 -> 用图的方法对邻接矩阵进行优化

标号建模 标号平滑 标号学习

锚图学习(速度+)
 - 这是一种coarse to fine的思路
 - 利用数据点图,生成锚点图,先采一部分有代表性的数据(例如聚类中心)生成一个图模型,然后推理出其他图
 - 图模型中需要建立表示矩阵(特征工程),邻接矩阵(度量学习),并加快相似度计算

高效锚图(性能速度+)
 - 从数学上优化锚图的约束条件,使得优化问题的复杂度大大降低

层次化锚图(速度++)
 - 建立多层的锚图,也就是对采样点再采样
 - 锚点是线性增加的,也会增加得很快

对第一层采样的点做再采样,多层采样减少了锚点数目,从最少的锚点的层逐层推理

标号预测器(速度+++)
 - 优化对锚点的标号(打伪标签进行半监督学习)
 - 对最小的锚点层接一个优化器进行标号预测

主动学习(样本选择)
 - 是一种hard mining的思路,选择更有用的样本作为锚点
 - 减小标号的误差损失

对比Google Expander Graph Learning平台:经典方法,并行运算,而锚图可以通过并行进一步提升速度

视频问答

任务:

输入视频,问题,输出答案

模型(层次记忆网络+视频时序推理):

对图像进行分层

对问题进行记忆

用文本和图像特征一同训练生成答案

用LSTM做时序推理

细粒度分类

任务:
 - 识别图像同一大类中的子类

挑战:
 - 姿态视角不同导致类内差异大,外形颜色相似导致类间差异小

基于模型动态扩容的增量深度学习方法

论文:Error-Driven Incremental Learning in Deep Convolutional Neural Network for Large-Scale Image Classification

将目标的多个类别按相似度划分为几个大类,

增加一个新的类别时,将其归入最相近的大类中,重用大类的参数,扩展小类分类层参数

利用类别子集合划分实现模型动态扩容,利用特征迁移学习实现训练加速(对类别做聚类)

局部两级注意力深度模型

The Application of Two-level Attention Models in Deep Convolutional Neural Network for Fine-grained Image Classification

给定图片-类别,不给出对象位置(bounding box)和局部的位置(part location),用Attention学习对象位置和局部特征

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpsszx.html