叶聪:朋友圈背后的计算机视觉技术与应用 (3)

在CNN之后非常聪明的科学家们就发现了很多可以更加优化的点,所以已经很少有人单纯用这个CNN做训练了。目前比较流行的做图像分割的还有很多基于 CNN 的新网络。比如在 CNN 基础上大家又加入了一个叫 Region Proposal Network 的东西,利用它们可以去优化传统 CNN 中间的一些数据的走向。Faster-RCNN 不是一蹴而就的,它是从RCNN中借鉴了 SPPNET 的一些特性,然后发明了 Fast-RCNN,又在 Fast-RCNN 的基础上进一步的优化变成了 Faster-RCNN。

img

即便到了Faster R-CNN这个领域也远远没有走到尽头。我们一直做对象检测的时候都是采用,要尽量的缩小范围的思路。每一个上面提到的算法都能找到一两篇非常好的论文,大家可以了解一下这个算法是怎么演变过来的。我们的目的是用分类的方法一次性把一个图片里面的信息全部理解,就出现了右边的算法。

img

接下来谈一下在有了一个模型算法以后,应如何做一些应用。讲几个腾讯云这边支持过的AI应用的例子。首先是五四青年的活动,它是解决图像匹配的一个活动。首先我们将民国时候的老照片作为训练数据,对它进行提取,和标注数据,对每个照片都进行标注,生成一个模型。大家在玩这个游戏的时候会传一张照片测试数据,等特征提取完,模型会返回一个它的分类,这个分数不是执行度,不可以完全参考。而是会选择一个分数最大的值返回到前端,生成一个页面,这就是整个流程。

img

第二个应用也比较流行:人脸融合的一个应用。类似军装照这类,原理上跟刚才的PPT有点类似,首先会对图像的人脸部分进行关键点的定位,将特征提取出来。因为角度也是会影响很多的匹配效果,所以要对图片进行一定程度的旋转,把它与模版图进行统一化。下一步将上传图片的人脸部分根据特征值抠出来。跟我们的模版图进行融合。由于上传的照片各种光线角度不完全一样,还要对图片进行一些优化,将光影、曲线调得比较平缓,这样就可以呈现一个非常好的效果。

img

这是我之前在斯坦福的时候做的一个项目,对图片的内容进行描述生成一个故事。我们做了一个模型是可以任意的帮助用户根据图片生成不同类型的故事。比如可以是浪漫小说,可以是科幻小说,不同的训练集可以根据情况调整大家想做一些自己项目的时候也可以像我们一样采用开源数据库。资源很多,不会成为大家研究的瓶颈。

五、解析云端AI能力支撑

img

聊过刚才的这些部分,背后是什么样的?如果我写了一个模型做了一个有趣的应用,是不是我就可以把它放到网上大家就可以玩了?其实不是这么简单。如果只是简单的让我们把它放到一个网站托管,为了支撑这么庞大的一个系统我们需要做些什么?应该采用云服务,尽量不在我们的物理集上部署。比如采用这个图里面提出的静态应用加速,虚拟机,对象储存,以及GPU云服务器加速我们出结果的速度。

img

整个系统里面用到了跨地域的负载均衡,弹性降级。上面提到的应用一般都会有短时间达到特别高的访问峰值,持续一段时间会有很快的回落。负载均衡会把一些机器释放掉降低成本。这是一整套的商业化的体系的运作。再介绍一下腾讯云人工智能目前的提供的服务领域,包括各种人脸合成,身份证识别,智能监控,人脸轧机还有智能语音方面上的:关键词搜索,语音合成等等。同时还有一些机器学习的平台可以帮助大家快速的去实现一些模型。同时还有大数据,可以做海量数据的数据挖掘。还有其他一些底层的服务,包括CPU等等。相当于像物理机,但是完全可以交给物理云去托管。

img

介绍一下人脸识别的例子。人脸识比较常见的几个应用,比如微信,人脸合成只需知道你的身份。可靠性高达99.5%。人脸检测又分静态与活体的检测,静态检测只是比对你的特征与库里面是否一致。但假设有人用一些视频或照片来攻击这个系统,可以采取包括以下几种模式的一整套活体检测的方法:一是让你读一段文字或者做一些动作,或者是屏幕用不同的光线去照射脸部,利用反射光的一些特点来对脸部做区分,3D建模,从而判断是视频还是真人。除此之外还可采用具有3D建模能力的摄像头,打一道光到人脸上,再将反射光收集起来。目前这些技术我们的这些技术都已比较成熟。

img

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpjwxf.html