Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences

作者和相关链接

论文阅读（Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences）

方法概括

解决问题：单词识别
主要流程：maxout版的CNN提取特征，RNN（LSTM）进行分类，CTC对结果进行调整。整个流程端到端训练和测试，和白翔的CRNN（参考文献1）方法几乎一样，以下为流程图

论文阅读（Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences）

创新点和贡献

idea的出发点——把单词识别问题看成是sequence labelling的问题
- 传统的OCR流程：
  1. 字符级分割
  2. 字符分类器
  3. 后处理（语言模型）

- 传统OCR方法的问题：
  1. 字符分割难度大，准确率受限 → 影响识别的整体性能　　 —— 不用分割（当做序列识别问题）
  2. 忽略了上下文信息 → 削弱识别的鲁棒性和可靠性 —— 用RNN做分类器可以充分利用上下文信息
  3. 一般用低级（像素级）或中级特征（HOG，strokelet之类）→ 鲁棒性差 —— 用CNN学习鲁棒的特征（CNN的区域卷积具备平移不变形，对形变具有鲁棒性）
方法的优点
- 能正确识别有歧义的文字图像
- 能正确识别形变大的文字图像
- 不用字典（可以识别新词，任意没有语义的字符串）
- 效果好！（IC03-50 = 97， IC03-FULL = 93.8，SVT-50 = 93.5）

方法细节

maxout CNN
- maxout激活函数和ReLU激活函数的对比

论文阅读（Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences）

- maxout的示例
  - maxout实际上就是把滤波器分成k=2（本例中取2)组，不同组的神经元输出互相一一对应，取其中最大的作为最后的输出
  - 如下图所示，W1j和W2j是两组滤波器，每组是64个滤波器，上下两个滤波器互相对应，分别与上一层的feature map对应位置进行卷积，取其中大的为新的输出。例如蓝色和橙色，蓝色得到的结果比橙色大，故最后8*8*64的输出的feature map对应的位置为蓝色（蓝色滤波器卷积的结果），灰色和红色中红色更大。

论文阅读（Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences）

- 本文的maxout CNN 网络结构
  - 五个卷积层，前四层提特征，最后一层分类器（实际上没用？），没有池化层，没有全连接层
  - 第四层的128维即为CNN特征（要输入到RNN中的）
  - 前3层的maxout分为2组，后面两层为4组。

论文阅读（Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences）

RNN（LSTM）

- LSTM为双向LSTM
- xi就是CNN的128维特征，T表示单词的滑窗个数（高度归一化到32，步长为1进行滑窗，每个窗口得到一个长度为128的cnn特征——xi）
- pi是一个长度为37的概率向量（因为不考虑字母的大小写共36类，加1个背景类，共37类

识别（从CNN特征到最后的单词输出）流程

- 流程图

- RNN对每个位置的窗口进行识别：X = （x₁, x₂, ..., x_T) → P = （p₁, p₂, ..., p_T)
- CTC得到单词输出：P = （p₁, p₂, ..., p_T) → L = （l₁,l₂,..., l_k) ,例如，L = ‘apartments'
  - CTC的全称：connectionist temporal classification (参考文献2）
  - CTC的公式
    - 其中，π表示某长度为T的某一个序列，例如，π = ’a__pp__aart_mm_een_t_s__'
    - B表示简单的去掉空格和去重操作，例如B(π) = B(’a__pp__aart_mm_een_t_s__') = apartments
    - P(π|p)=π的每个位置上属于某个字符的概率的乘积：P(π|p) = P(π₁|p) × P(π₂|p) ×P(π₃|p) × .... ×P(π_T|p)

论文阅读（Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences）

- - CTC实际上是用动态规划方法算出所有可能的串的概率（每个位置的概率乘积），然后选择其中概率最大的串作为最后输出

实验结果

识别结果（表格带字典，右图不带字典，为任意字符串）

论文阅读（Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences）

结果示例

论文阅读（Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences）

问题讨论

maxout 的CNN中的最后一个softmax层似乎没用到？直接用RNN做的分类，整个过程也是端到端的训练

总结与收获点

本文方法和白翔的CRNN的不同点在于：第一，白翔的CNN是普通的CNN，本文CNN用的是maxout的CNN。第二，白翔的CNN最后用了一个Map-to-Sequence把CNN最后一层的feature map上的每个滑动窗口直接拉成一列一列的特征输出到RNN中，而这篇文章的CNN是原图中的每个32*32个大小的滑动窗口，直接得到第四层的一个卷积向量作为该窗口的特征（最后一层用的滤波器大小和该窗口对应的feature map大小一样，故得到1*1的值），虽然实际上大同小异。其他关于RNN和CTC的用法几乎一致，白翔的文章还提到了用字典和不用字典的两种识别策略。
本篇最大的亮点：把识别问题看成sequence labelling问题，把CNN和RNN放在一个网络中进行端到端训练（这一点也和白翔他们一样）

参考文献

Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition
Graves, A.; Fernandez, S.; Gomez, F.; and Schmidhuber, J. 2006. Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks. IEEE International Conference on Machine Learning (ICML)

论文阅读（Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences）的更多相关文章

论文阅读笔记九：SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS (DeepLabv1)(CVPR2014)
论文链接:https://arxiv.org/abs/1412.7062 摘要该文将DCNN与概率模型结合进行语义分割,并指出DCNN的最后一层feature map不足以进行准确的语义分割,DCN ...
【论文速读】Chuhui Xue&lowbar;ECCV2018&lowbar;Accurate Scene Text Detection through Border Semantics Awareness and Bootstrapping
Chuhui Xue_ECCV2018_Accurate Scene Text Detection through Border Semantics Awareness and Bootstrappi ...
[论文阅读] Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks(MTCNN)
相关论文:Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks 概论用于人脸检测和对 ...
论文阅读笔记四：CTPN&colon; Detecting Text in Natural Image with Connectionist Text Proposal Network(ECCV2016)
前面曾提到过CTPN,这里就学习一下,首先还是老套路,从论文学起吧.这里给出英文原文论文网址供大家阅读:https://arxiv.org/abs/1609.03605. CTPN,以前一直认为缩写一 ...
&num;论文阅读&num; Universial language model fine-tuing for text classification
论文链接:https://aclweb.org/anthology/P18-1031 对文章内容的总结文章研究了一些在general corous上pretrain LM,然后把得到的model t ...
【论文速读】Fangfang Wang&lowbar;CVPR2018&lowbar;Geometry-Aware Scene Text Detection With Instance Transformation Network
Han Hu--[ICCV2017]WordSup_Exploiting Word Annotations for Character based Text Detection 作者和代码 caffe ...
论文阅读 | HotFlip&colon; White-Box Adversarial Examples for Text Classification
[code] [pdf] 白盒 beam search 基于梯度字符级
论文阅读笔记六十二&colon;RePr&colon; Improved Training of Convolutional Filters(CVPR2019)
论文原址:https://arxiv.org/abs/1811.07275 摘要一个训练好的网络模型由于其模型捕捉的特征中存在大量的重叠,可以在不过多的降低其性能的条件下进行压缩剪枝.一些skip/ ...
论文解读《Understanding the Effective Receptive Field in Deep Convolutional Neural Networks》
感知野的概念尤为重要,对于理解和诊断CNN网络是否工作,其中一个神经元的感知野之外的图像并不会对神经元的值产生影响,所以去确保这个神经元覆盖的所有相关的图像区域是十分重要的:需要对输出图像的单个像素进 ...

随机推荐

SQL SERVER 竖表变成横表
现有数据如下: Sql: select a.MODELID, max( case a.PNAME when'计划开始' then a.PVALUE end) as RStart, max( case ...
Unity小游戏制作 - 暗影随行
用Unity制作小游戏 - 暗影惊吓最近玩了一个小游戏,叫做暗影惊吓,虽然是一个十分简单的小游戏,但是感觉还是十分有趣的.这里就用Unity来实现一个类似的游戏. 项目源码:DarkFollow 主 ...
【2016-11-11】【坚持学习】【Day24】【WPF 自定义控件附加属性自定义事件】
UserControl ,自定义控件. 这里刚刚想到一个问题.什么时候应该用usercontrol 定义一个控件.什么时候应该重写控件的template和样式,实现新效果. 引用一下人家的话:http ...
linux 项目环境搭建配置
经过三天加一上午的努力折腾,本地项目终于跑起来了,linux系统,重装后需要安装基本的php,nginx,mysql.php扩展需要安装curl ,memcache,memcached等.然后就是修改 ...
java classloader
一个jvm中默认的classloader有Bootstrap ClassLoader.Extension ClassLoader.App ClassLoader,分别各司其职: Bootstrap ...
【解决方法】VS 丢失模板
今天要用VS2008做一个报表,可是在添加新建项的时候却没有报表(rdlc)模板. 解决方法: 1 拷贝文件 1.1 32位windows 将 C:\Program Files\Microsoft V ...
curl常用命令备忘
#####(输出请求头信息) curl -I xxx-Pro:test xxx$ curl -I https://www.baidu.com/ HTTP/1.1 200 OK Accept-Range ...
Golang 入门系列（三）Go语言基础知识汇总
前面已经了 Go 环境的配置和初学Go时,容易遇到的坑,大家可以请查看前面的文章 https://www.cnblogs.com/zhangweizhong/category/1275863.html ...
在PHPStorm中快速插入当前日期
在EditPlus中使用快捷键Ctrl+D即可插入当前日期,但在PHPStorm中似乎没有这样的快捷键,那如何实现快速插入当前日期呢?其实很简单,跟我做一遍你就会了: 目标为PHPStorm定义一个 ...
前端之JavaScript笔记3
一创建添加节点 <!DOCTYPE html> <html lang="en"> <head> <meta charset=" ...

秒客网

论文阅读（Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences）

Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences

目录

作者和相关链接

方法概括

创新点和贡献

idea的出发点——把单词识别问题看成是sequence labelling的问题

方法的优点

方法细节

maxout CNN

maxout激活函数和ReLU激活函数的对比

maxout的示例

本文的maxout CNN 网络结构

RNN（LSTM）

识别（从CNN特征到最后的单词输出）流程

实验结果

识别结果（表格带字典，右图不带字典，为任意字符串）

结果示例

问题讨论

总结与收获点

参考文献

论文阅读（Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences）的更多相关文章

随机推荐

相关文章