演讲嘉宾:叶聪,腾讯云AI和大数据中心高级研发工程师。在多年的云计算系统研发经历中,负责领导了多个百万级用户及产品的架构设计和开发。
AI要走进千家万户,融入整个社会,而不仅仅是曲高和寡的模型。所以现在非常讲究AI场景化,使它成为与产业相关的部分。
一、朋友圈爆款活动背后的技术今天我会从朋友圈的一些爆款的互动活动作为切入点,带大家过一遍一些计算及视觉技术与应用,或者把AI技术产业化。我们经常在朋友圈会看到一些比较有趣的互动的活动,比如像军装照、武士青年这类活动视觉比较流行的应用,也是目前探索出来的计算机视觉能够最快来到大家身边的方式。以过去的五四青年节的活动为例,这个有趣的活动就应用了人脸检测与人脸检索的技术相结合。
上传一张照片最匹配民国时候有为青年的照片,做成这种页面供大家分享。这种模式最开始就是由腾讯开启,现已成为了整个行业应用的参考。除了这个活动,H5这类应用往往会出现用户访问爆发性的增长,为了应对这种突如其来的流量暴增,使用一整套云架构部署,而不是传统机房里面用几台服务器处理。比如像五四青年的活动,5万KPS的架构就有这样的承载能力。从个人角度想要做这样的应用,需要了解以下的基础知识。
二、计算机视觉定义首先从计算机视觉的基本定义开始,学术角度来讲是研究如何让计算机从图像和视频中获取高级抽象的信息的一种方法。但我比较喜欢后面这种工程角度的解释,计算机视觉是可以使机器来模仿人类自动化。现在我们利用计算机视觉让整个流程更自动化,机器可以部分的代替人力去理解图片中的一些信息。计算机视觉还包含一些子分支,现在这个分支还会慢慢扩张,这个分类也在慢慢的扩大。主要包括物体识别、对象检测、语义分割、3D的重建,动作识别等等。
底下有几个比较常见的视觉应用,第一个是人脸识别;第二个是无人驾驶;第三个是语义分割。语义分割在人工智能这个领域还是比较常见的。一般指词性的分割,或者词的分割。图像分割里面的语义分割一般指的是把图像里面的不同类型的对象进行标注和区分。右边这张图就是个例子。这张图上基本上把人、路、车都用了不同的颜色标注。
提到机器视觉,首先就要知道机器是怎么去理解图片的?这里就要带入RGB-alpha 的一个算法。
顾名思义,就是红绿蓝三色,然后,alpha 是什么?如果大家在早期的时候玩过一些电脑硬件,你可能会发现,最早期的显卡是 24 位彩色,后来出现一个叫 32 位真彩色,都是彩色的,有什么不同吗?因为在计算机领域,我们用 8 位的二进制去表示一种颜色,红绿蓝加在一起就是 24 位,基本上我们把所有颜色都表示出来了。
三、曾经的图像处理——传统方法首先聊一下一些传统的图像处理的方法。上面这几个滤波器如果有学图像相关的同学都会经常用到,包括空间滤波器、小波滤波器。如果对图像进行分类,我们肯定要提取图像中的一些特征,然后根据这些图像提取出的特征用算法进行一些分类,所以是两步走。
关于如何提取图像的特征,现在已经有很多比较成熟的方法。最容易想到的就是图像里面对象会有边缘。边缘就代表了图像的特点。除了边缘检测的方法还会有其他的特征,比如Haar特征。对象具有边缘、对角线、中心都可以利用这种黑白的对比图,标注出它灰度的变化,把刚才说的三种维度的信息组成一个集合,这样就可以提取图片的特征。
还有一个比较新的特征提取方法,就是2012年的时候康奈尔提出来的,利用一个图片里面对象的局部对称性来提取特征。左边这个图有不同形状的对象,右边这个图就把它的对称性理解为重心提取出来,图上越白色的地方代表对称性越强。这种算法优点是整个图形提取出的特征是比较有对称性。这样就容易把这个东西从背景里面提出来。