CNCC2017中的深度学习与跨媒体智能

机器学习与跨媒体智能

传统方法与深度学习

图像分割

小数据集下的深度学习

语音前沿技术

生成模型

基于贝叶斯的视觉信息编解码

珠算:基于别噎死推断的深度生成模型库

图像与视频生成的规则约束

景深风景生成

骨架约束的人体视频生成

跨媒体智能

视频检索的哈希学习

多媒体与知识图谱

基于锚图的视觉数据分析

视频问答

细粒度分类

跨媒体关联与检索(待补充)

正片开始

传统方法与深度学习 图像分割

图像分割是医疗图像中一个很重要的任务,通常分为分割,配准,可视化几个子任务。这里贴一张广义的图像分割的图:

存在的困难:

不同目标区域亮度一致,区分度小,

不同目标区域边界模糊,

图像采集存在噪声

常用分割步骤

检测(定位)-> 边界寻优

常用分割方法

按照图像中区域的能量与联系,建立图模型,用图割,图搜索的方法对图像进行分割

外观模型:特定的目标区域往往具有特殊的外观,包括轮廓,形状,可以用外观模型进行匹配,做粗粒度的分割,或者对细粒度处理后的图像进行校正

多模态图像处理:融合结构信息和功能信息进行分割

对准两个模型(结构和功能)的图像,对两个模型的预测结果进行约束(比如希望两个模型的输出相近)

双模型交互迭代优化

多边形近似

对于某种目标区域,有着固定的多边形外观,可通过多边形近似的方法,标记出图像中近似的特征点 

语音前沿技术 任务

降噪,增强,杂音分离,消除回响

结合领域知识和DNN

数据标注:结合领域知识提出需要标注哪些数据

不直接学习目标,而是根据领域知识将目标任务进行分解
 - 比如识别字母,分解为识别摩擦音,爆破音

将传统模型中里程碑式的东西拿过来用

移动端语音挑战

模型压缩,轻量化

生成模型 基于贝叶斯的视觉信息编解码 任务

视觉信息编码:视觉信息通过人脑转为神经活动的过程

视觉信息解码:神经活动新号转为视觉信息的过程

模型(基于卷积和反卷积的自编码器)

推理网络:卷积神经网络,得到中间特征,建立中间特征与神经活动信号之间的关联,从而得到神经活动得到编码

生成网络:将神经活动进行反卷积,得到图像

对于两个信号,学习两个信号产生于同一对象的概率(相似度分析),建立起一个贝叶斯推断模型

多视图生成式自编码器

除了视觉数据之外,还有其他模态的数据,可以根据多个模态的数据构建多视图的生成时自编码器

珠算:基于贝叶斯推断的深度生成模型库 任务

大数据中有许多不确定因素,需要学习对不确定性建模

模型

给定一个输入z,用神经网络学习变量x的分布的参数(均值和方差),约束生成样本与真实样本的相似性

有约束的GAN

p10_gan.png

在GAN的基础上,加一个分类器C,对生成器G生成的对象加中间约束,使得生成的对象更符合实际需求,比如生成不同姿态的人脸,要求不同人的人脸尽量不同,同个人的人脸尽量相同。

珠算

基于Tensorflow的python库,无监督生成模型

贝叶斯推断

适合传统多层贝叶斯推断模型以及深度生成模型

可用于
 - 多变量回归
 - 变分自编码器实现

图像与视频生成的规则约束学习

GAN成为无监督领域的新框架

WGAN,DCGAN
 - 在生成中,往往通过随机性引入创意

已有工作
 - 人脸姿态转换,人脸年龄转换,人脸表情转换
 - 图像超分辨率生成,画风转换,字体转换,图像转视频

应用
 - 动画自动制作,手语生成
 - 视频自动编辑(如生成不同天气情况下的风景)

创意+规则约束+复杂场景+复杂交互

难点
 - 解空间巨大:需要找出解所在的低维子空间
 - 宏观结构的一致性(视频生成需要的像素感受野(pooling)很大,难以预测长期运动变化)
 - 微观结构的清晰度,要同时逼近多模分布,避免单模生成的结果不够精确

解决方法

用领域中的规则去约束GAN,加入破坏规则的代价
 - 缩小预测空间,保证宏观结构,加快细节生成

景深风景生成

难点:要求空间结构合理,不能有严重的模糊

约束:从现有风景图像中对景深关系建模(对区域进行标注, 不同区域,即图层,有不同的远近限制)

建立位置和对象的关系,得到某个位置有某个对象的概率分布

Hawkes过程模型

根据对象对图层做分解,由概率约束建立图层约束(树在人之前的概率有多大)

层内DCGAN,层间LSTM聚合出整图

骨架约束的人体视频生成

骨架运动有约束

骨架提取很鲁棒,可以得到很多有标签知识(传统方法用来提取知识),作为约束条件

静图+动作序列变动图

CNN编码解码,孪生网络双输入进行生成

判别器:对生成和实际帧做Triplet loss优化

gan loss和视频相似度loss相加

交互运动视频生成

视频检索的哈希学习

Learning Multifunctional Binary Codes for Both Category and Attribute Oriented Retrieval Tasks

视频检索基于图像检索,大规模图像检索对性能要求较高

图像检索

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpsszx.html