华为AI全栈成长计划课程——AI应用篇——第一周笔记

日期：2022-10-08 栏目：程序人生浏览：次

使用普遍

　　　　OCR流程

机器学习

图像预处理：去噪、灰度化、图像增强等

文本检测：滑动窗口算法遍历整张图片

字符分类：划分单个字符，识别单字

华为AI全栈成长计划课程——AI应用篇——第一周笔记

深度学习方法
文字区域检测：将图片中出现的文本位置检测出来，可能存在不同语言，不同文字大小，不同角度倾斜，不同程度遮挡等情况。

CTPN：CTPN网络结合了CNN与LSTM深度网络，通过固定宽度的anchor提取proposal，能有效的检测出复杂场景的横向分布的文字区域，不定长度文本识别效果较好，是目前使用广泛的文字检测算法。

华为AI全栈成长计划课程——AI应用篇——第一周笔记

EAST：EAST网络分为三部分：特征提取，特征融合和输出层，实现了端到端的文本区域检测，通过FCN网络生成图片文本参数，然后通过NMS筛选，得到检测结果。

华为AI全栈成长计划课程——AI应用篇——第一周笔记

PixelLink：PixelLink算法采用了实例分割的方法完成文本区域检测，通过将统一实例中的像素链接，通过链接区域分割出文本实例，然后从分割结果中提取文本边界框，进行回归计算。

华为AI全栈成长计划课程——AI应用篇——第一周笔记

**字符识别算法，将文本区域的字符识别出来。通过深度神经网络对目标区域进行特征提取，然后对固定特征进行提取和比对，得出识别结果。

CRNN+CTC：CRNN卷积循环神经网络，将特征提取，序列建模以及转录整合到统一的模型框架中。CRNN网络分为：卷积层、循环层和转录层三部分，CTC为无词典的转录方式，不会被局限在预定义词汇范围中。

华为AI全栈成长计划课程——AI应用篇——第一周笔记

　　　　OCR相关的开源资源

Tesseract
　　2006年开源的光学字符识别引擎，因为开源使用以及精准的检测效果，Tesseract的使用十分普遍。

MNIST手写数字数据集
　　MNIST数据集包括了大量的手写数字图片，包括6万张训练数据集和1万张测试数据集，是广泛使用的开源数据集之一，很多深度学习任务的入门练习数据集。

COCO-text
　　包含日常生活里复杂场景中的文字，数据集提供了边界框的位置，区分了打印文字和手写文字，清晰和模糊的文字，文字的内容等标注信息，数据集包括了超过173,589标注了的文本区域，超过63,686张图片。

CTW中文街景数据集
　　数据集中包含了32285张图片，共计1018402个汉字，3850个汉字类别。标注信息包括了文字行的边界框、文字单字的边界框、是否遮挡扭曲、是打印文字或者手写文字等。

　　　　OCR面临的挑战

汉字字符识别
　　汉字字符的识别难度相比较英文字符要更大，字符的识别过程可以近似为分类，引文字符的分类数远小于汉字单字的数量，所以分类的难度更高。除此之外，多语言混合也是字符分类任务中的挑战，字符识别更加复杂。

手写字符识别
　　印刷字体遵循固定的规则，而手写字符的识别相比较就更加复杂，每个人的书写习惯都不同，同一个人书写同样的字符也不完全相同，识别难度大大增加。

1.2 华为云OCR调用指南

华为AI全栈成长计划课程——AI应用篇——第一周笔记

1.3 CTPN+CRNN端到端实现文字识别

　　　　CPTN

网络结构：CNN-VGG16、RNN、FC

华为AI全栈成长计划课程——AI应用篇——第一周笔记

　　　　CRNN

转载注明出处：https://www.heiqu.com/zgjyxj.html