机器学习与跨媒体智能
传统方法与深度学习
图像分割
小数据集下的深度学习
语音前沿技术
生成模型
基于贝叶斯的视觉信息编解码
珠算:基于别噎死推断的深度生成模型库
图像与视频生成的规则约束
景深风景生成
骨架约束的人体视频生成
跨媒体智能
视频检索的哈希学习
多媒体与知识图谱
基于锚图的视觉数据分析
视频问答
细粒度分类
跨媒体关联与检索(待补充)
正片开始
传统方法与深度学习 图像分割图像分割是医疗图像中一个很重要的任务,通常分为分割,配准,可视化几个子任务。这里贴一张广义的图像分割的图:
存在的困难:不同目标区域亮度一致,区分度小,
不同目标区域边界模糊,
图像采集存在噪声
常用分割步骤检测(定位)-> 边界寻优
常用分割方法按照图像中区域的能量与联系,建立图模型,用图割,图搜索的方法对图像进行分割
外观模型:特定的目标区域往往具有特殊的外观,包括轮廓,形状,可以用外观模型进行匹配,做粗粒度的分割,或者对细粒度处理后的图像进行校正
多模态图像处理:融合结构信息和功能信息进行分割
对准两个模型(结构和功能)的图像,对两个模型的预测结果进行约束(比如希望两个模型的输出相近)
双模型交互迭代优化
多边形近似
对于某种目标区域,有着固定的多边形外观,可通过多边形近似的方法,标记出图像中近似的特征点
语音前沿技术 任务降噪,增强,杂音分离,消除回响
结合领域知识和DNN数据标注:结合领域知识提出需要标注哪些数据
不直接学习目标,而是根据领域知识将目标任务进行分解
- 比如识别字母,分解为识别摩擦音,爆破音
将传统模型中里程碑式的东西拿过来用
移动端语音挑战模型压缩,轻量化
生成模型 基于贝叶斯的视觉信息编解码 任务视觉信息编码:视觉信息通过人脑转为神经活动的过程
视觉信息解码:神经活动新号转为视觉信息的过程
模型(基于卷积和反卷积的自编码器)推理网络:卷积神经网络,得到中间特征,建立中间特征与神经活动信号之间的关联,从而得到神经活动得到编码
生成网络:将神经活动进行反卷积,得到图像
对于两个信号,学习两个信号产生于同一对象的概率(相似度分析),建立起一个贝叶斯推断模型
多视图生成式自编码器除了视觉数据之外,还有其他模态的数据,可以根据多个模态的数据构建多视图的生成时自编码器
珠算:基于贝叶斯推断的深度生成模型库 任务大数据中有许多不确定因素,需要学习对不确定性建模
模型给定一个输入z,用神经网络学习变量x的分布的参数(均值和方差),约束生成样本与真实样本的相似性
有约束的GAN在GAN的基础上,加一个分类器C,对生成器G生成的对象加中间约束,使得生成的对象更符合实际需求,比如生成不同姿态的人脸,要求不同人的人脸尽量不同,同个人的人脸尽量相同。
珠算基于Tensorflow的python库,无监督生成模型
贝叶斯推断
适合传统多层贝叶斯推断模型以及深度生成模型
可用于
- 多变量回归
- 变分自编码器实现
GAN成为无监督领域的新框架
WGAN,DCGAN
- 在生成中,往往通过随机性引入创意
已有工作
- 人脸姿态转换,人脸年龄转换,人脸表情转换
- 图像超分辨率生成,画风转换,字体转换,图像转视频
应用
- 动画自动制作,手语生成
- 视频自动编辑(如生成不同天气情况下的风景)
创意+规则约束+复杂场景+复杂交互
难点
- 解空间巨大:需要找出解所在的低维子空间
- 宏观结构的一致性(视频生成需要的像素感受野(pooling)很大,难以预测长期运动变化)
- 微观结构的清晰度,要同时逼近多模分布,避免单模生成的结果不够精确
解决方法
用领域中的规则去约束GAN,加入破坏规则的代价
- 缩小预测空间,保证宏观结构,加快细节生成
难点:要求空间结构合理,不能有严重的模糊
约束:从现有风景图像中对景深关系建模(对区域进行标注, 不同区域,即图层,有不同的远近限制)
建立位置和对象的关系,得到某个位置有某个对象的概率分布
Hawkes过程模型
根据对象对图层做分解,由概率约束建立图层约束(树在人之前的概率有多大)
层内DCGAN,层间LSTM聚合出整图
骨架约束的人体视频生成骨架运动有约束
骨架提取很鲁棒,可以得到很多有标签知识(传统方法用来提取知识),作为约束条件
静图+动作序列变动图
CNN编码解码,孪生网络双输入进行生成
判别器:对生成和实际帧做Triplet loss优化
gan loss和视频相似度loss相加
交互运动视频生成
视频检索的哈希学习Learning Multifunctional Binary Codes for Both Category and Attribute Oriented Retrieval Tasks
视频检索基于图像检索,大规模图像检索对性能要求较高
图像检索