腾讯数平精准推荐(Tencent-DPPR)团队一直致力于实时精准推荐、海量大数据挖掘等领域的技术研发与落地。
在社交广告推荐领域,团队自研的深度在线点击率预估算法及全流程实时推荐系统,持续多年提升社交广告点击率。图像作为当前社交广告最重要的展示形式,文字识别、物体识别等图像理解技术能够有效加深对广告特征、广告主题、广告信息、用户偏好等方面的理解,令广告推荐业务更加精准。
作为理解广告图像的基石技术,OCR原意指光学字符识别(Optical Character Recognition),现泛指图像文字识别,即从图像视频中自动识别文字内容,属于AI计算机视觉的一个重要分支。移动互联网的爆炸式增长以及深度学习技术的普及,分别从业务需求与技术支撑两方面,进一步推动OCR领域发展。OCR技术可深入服务于广告推荐系统的图像内容提取、广告素材审核、广告图像创意、用户理解,等等。除广告业务外,OCR亦可应用于UGC图片视频过滤、医学影像识别、证件识别、文档识别、街景路牌识别,等等。
腾讯数平精准推荐团队在OCR领域深耕细作多年,自研的基于深度学习方法的文本检测与识别技术多次在国际权威ICDAR竞赛数据集上刷新世界纪录,特别是在2017年举办的第14届ICDAR官方竞赛中,斩获了“COCO-TEXT”和“医学文献图像”等极具挑战任务的4项冠军,再次证明了Tencent-DPPR团队在OCR领域的技术研发能力。业内主流OCR技术,通常分为文字检测与文字识别2个模块:通过检测算法定位到文本行,后通过识别算法阅读出文本行内容。本文将介绍Tencent-DPPR团队的文字识别算法。
一.相关工作
OCR识别模块属于多分类问题,对识别效果影响大的因素包括:复杂背景、艺术字体、低分辨率、非均匀光照、图像退化、字符形变、多语言混合、文本行复杂版式、检测框字符残缺,等等。对比英文识别,中文OCR具备更强挑战。例如英文数字可建模为62分类问题,若要识别中文10000个汉字,则需建模为10000分类问题。此外,中文的笔画复杂度、形近字数量、简繁体数量、版式排列、词语组合数量,都比纯英文识别挑战更大。
社交广告图片的部分挑战场景如图1所示:
(图1)
社交广告图片中有挑战的文本行如图2所示:
(图2)
在2013年之前,传统算法在OCR领域占主导地位,其标准流程包含文本检测、单字符分割、单字符识别、后处理等步骤,如图3所示。
此处介绍传统方法中具有代表性的PhotoOCR[1]算法。PhotoOCR是谷歌公司提出的一套完整OCR识别系统,包含文字区域检测、文本行归并、过分割、基于Beam Search的分割区域的组合、基于HOG特征和全连接神经网络的单字符分类、基于ngram方法的识别结果校正。PhotoOCR系统覆盖传统OCR流程每一环节,通过流程细化与每一环节的多类技术集成化,在2013年取得了优异结果,同样也暴露传统方法诸多不足,例如:需要将OCR系统割裂成过多环节、需要在每个环节上引入过多人工干预、需要根据场景设定方法集成、难以做到端到端训练,等等。
自2012年AlexNet[2]在ImageNet竞赛夺冠以来,深度学习方法开始在图像视频领域大幅超越传统算法,并开始扩展到OCR领域,包括基于卷积神经网络(Convolutional Neural Network, CNN)和基于长短期记忆(Long Short-Term Memory, LSTM)的方法等。基于CNN的识别算法,代表性论文是[3]。该方法由两部分构成,检测模块采用基于 region proposal 和滑动窗的方法切出词条,识别部分采用 7层CNN对整词分类,如图4所示。
此论文另一大贡献是提供了大规模合成数据的方法。标注文字的成本远高于标注人脸、物体等数据,高标注成本限制了OCR数据集规模。因此,合成样本方法的出现,有效缓解了深度网络对于OCR真实标注数据的依赖,极大推动了OCR识别领域的深度算法的发展。
CNN方法的出现,最大功能是在特征工程及单字符分类领域替代传统方法,但仍然未能避免传统思路中难度最大的二值化和字符分割问题。在复杂的自然场景、广告场景中,CNN分类方法仍难以满足需要。
二.腾讯DPPR团队场景文字识别技术
本章重点介绍腾讯数平精准推荐团队(Tencent-DPPR)的深度OCR算法。考虑到传统分类以及CNN单字符分类的诸多不足,本团队基于长短期记忆(Long Short-Term Memory, LSTM)网络的技术路线,进行序列化(词汇、短语、语句等)识别。
1. 基于联结时序分类
与语音识别问题类似,OCR可建模为时序依赖的词汇或者短语识别问题。基于联结时序分类(Connectionist Temporal Classification, CTC)训练RNN的算法,在语音识别领域[4]显著超过传统语音识别算法。一些学者尝试把CTC损失函数借鉴到OCR识别中,CRNN [5]就是其中代表性算法。CRNN算法输入100*32归一化高度的词条图像,基于7层CNN提取特征图,把特征图按列切分(Map-to-Sequence),每一列的512维特征,输入到两层各256单元的双向LSTM进行分类。在训练过程中,通过CTC损失函数的指导,实现字符位置与类标的近似软对齐。
CRNN借鉴了语音识别中的LSTM+CTC的建模方法,不同点是输入进LSTM的特征,从语音领域的声学特征(MFCC等),替换为CNN网络提取的图像特征向量。CRNN算法最大的贡献,是把CNN做图像特征工程的潜力与LSTM做序列化识别的潜力,进行结合。它既提取了鲁棒特征,又通过序列识别避免了传统算法中难度极高的单字符切分与单字符识别,同时序列化识别也嵌入时序依赖(隐含利用语料)。本团队也多处改进LSTM+CTC的算法,并应用到自然场景图像、银行卡识别、身份证识别等多个任务中。在CNN一侧,我们在卷积层采取类似VGG网络的结构,减少CNN卷积核数量的同时增加卷积层深度,既保证精度,又降低时耗。在RNN一侧,我们针对LSTM有对语料和图像背景过拟合的倾向,在双向LSTM单元层实现了Dropout策略。在训练技巧一侧,我们针对CTC loss对初始化敏感和收敛速度慢的问题,采用样本由易到难、分阶段训练的策略。在测试阶段,针对字符拉伸导致识别率降低的问题,我们保持输入图像尺寸比例,根据卷积特征图的尺寸动态决定LSTM时序长度。我们使用的算法的网络结构如图5所示,由于以上所述的多处改进,我们的算法速度快且精度高,在身份证、银行卡等业务上取得98%以上识别准确率。
2. 基于注意力机制
近两年来,注意力机制在图像描述[6]、语音识别[7]、自然语言处理[8][9]等领域大放异彩,本团队也开始尝试把此机制引入到OCR识别模块。注意力机制能够聚焦词条图像特征向量的ROI,在当前时刻实现特征向量与原图字符区域的近似对齐,提升深度网络中的Encoder-Decoder模型的聚焦度与准确率。
注意力机制实现方式多样,在基于注意力模型识别法语街景路标的论文[10]中,作者首先把同个路标的4个不同视角图像分别输入到相同Inception-v3 CNN网络提取特征图,对拼接后的特征图,进行二维空间注意力加权,加权后的结果输入到单向LSTM层解码分类。相比于LSTM+CTC模型,注意力模型更显式的把当前时刻待分类字符与原图位置对齐,同时也更显式的利用前一时刻语料依赖。根据文献[10]的实验,对比于LSTM+CTC模型,注意力模型配合自回归连接,在法语街景路牌数据集上,除了精度提升6%,收敛速度也快了2倍。
我们在注意力机制上,与文献[10]的设计不同,我们采用的网络结构如图6所示。特征编码阶段,我们采取类似于VGG的10层卷积网络。特征解码阶段,我们结合了注意力机制与LSTM层。在注意力机制上,我们采用基于内容和基于历史相结合的混合方法。基于内容的注意力方法使用上一步预测的字符向量以及预测该向量的加权特征向量作为联合特征,联合特征向量作为LSTM的输入,产生注意力机制的查询向量;基于历史的注意力方法会使用上一步的注意力,我们采用CNN从上一步的注意力提取特征作为注意力机制中的索引向量的一部分。除了混合注意力模型的改进,我们也在训练数据与技巧等方面多处改进。我们也引入图像随机填补、随机破坏注意力模块所输入的语序依赖、随机拉伸、依据每个batch内样本动态填补图像长度,等等。通过持续优化,当前我们的注意力模型在广告图像、自然场景图像等极具挑战的场景取得了86%以上端到端准确率。
三.当前效果
当前腾讯数平精准推荐团队(Tencent-DPPR)的OCR识别算法,能够应对艺术字、模糊、低分辨率、字体变形、字符残缺等多类有挑战场景,在广告场景已经取得良好效果。
1. 多样化版式(横竖版式共存):
2. 艺术字与字体变形:
3.低分辨率与模糊字符:
4. 检测框有残缺:
5. 检测框过大:
6. 复杂或非均匀背景:
7. 多语言混合:
- (图13)
五.未来工作展望
本文介绍了腾讯数平精准推荐团队(Tencent-DPPR)的OCR识别算法,包括识别算法的演进之路以及4个代表性方法。虽然我们当前已采用基于联结时序分类和空间注意力机制的深度RNN网络,效果有明显提升,但识别模块仍存在多个挑战有待解决,包括:过低分辨率图像、高噪声图像、强变形艺术字、复杂排版文字、超长文本行、残缺过多的检测框等。此外,如何显式利用语料信息弥补图像质量降低时识别能力明显退化的问题,也需进一步研究。OCR技术在广告图像以及其他形式图像的研究与落地,仍存在巨大潜力尚待挖掘,本团队也会继续精耕细作。
声明:由于篇幅所限,[数字]标注部分的参考文献暂未列出。
此文转自腾讯大数据