XiangBai——【AAAI2017】TextBoxes:A Fast Text Detector with a Single Deep Neural Network
目录
- 作者和相关链接
- 方法概括
- 创新点和贡献
- 方法细节
- 实验结果
- 总结与收获点
作者和相关链接
- 作者
方法概括
-
文章核心:
- 改进版的SSD用来解决文字检测问题
-
端到端识别的pipeline:
- Step 1: 图像输入到修改版SSD网络中 + 非极大值抑制(NMS)→ 输出候选检测结果
- Step 2: 候选检测结果 + CRNN进行单词识别 → 新的检测结果 + 识别结果
-
方法的性能
- 多尺度版本-定位:ICDAR2011-0.85(f),ICDAR2013-0.85(f),0.73s/per image
- 单尺度版本-定位:ICDAR2011-0.80(f),ICDAR2013-0.80(f),0.09s/per image
-
改进的SSD的地方:
- default box的长宽比进行修改(长条形),使其更适合文字检测(单词)
- 作为classifier的卷积滤波器大小从3*3变成1*5,更适合文字检测
- SSD原来为多类检测问题,现在转为单类检测问题
- 从输入图像为单尺度变为多尺度
- 利用识别来调整检测的结果(text spotting)
创新点和贡献
-
创新点
- 把SSD进行修改,使其适用于文字检测(SSD本身对小目标识别不鲁棒)
-
贡献
- 提出一个端到端可训练的非常简洁的文字检测框架(SSD本身是single stage的,不像普通方法需要有多步骤组成)
- 提出一个完整的端到端识别的文字检测+识别框架
- 实验方法结果好,速度快
方法细节
-
相关背景——文字识别的任务
- 文字检测
- 文字/单词识别
- 端到端文字识别 = 文字 + 识别
- text spotting:和文字检测不同的是,可以利用带字典的文字识别进行调整检测结果,最终是用文字检测的结果进行评判
-
相关背景——SSD
- SSD的网络结构
- SSD的default box
Fig. 1: SSD framework. (a) SSD only needs an input image and ground truth boxes for each object during training. In a convolutional fashion, we evaluate a small set (e.g. 4) of default boxes of different aspect ratios at each location in several feature maps with different scales (e.g. 8 × 8 and 4 × 4 in (b) and (c)). For each default box, we predict both the shape offsets and the confidences for all object categories ((c1; c2; · · · ; cp)). At training time, we first match these default boxes to the ground truth boxes. For example, we have matched two default boxes with the cat and one with the dog, which are treated as positives and the rest as negatives. The model loss is a weighted sum between localization loss (e.g. Smooth L1 [6]) and confidence loss (e.g. Softmax).
-
相关背景——CRNN
- CRNN的网络结构
-
TextBoxes与SSD网络结构对比
- TextBoxes网络结构
- SSD 网络结构
-
Text-box layers的输出
(与SSD一样)
-
TextBoxes与SSD不同的修改细节
-
default box长宽比
(右边图)Figure 2: Illustration of default boxes for a 4*4 grid. For better visualization, only a column of default boxes whose aspect ratios 1 and 5 are plotted. The rest of the aspect ratios are 2,3,7 and 10, which are placed similarly. The black (aspect ratio: 5) and blue (ar: 1) default boxes are centered in their cells. The green (ar: 5) and red (ar: 1) boxes have the same aspect ratios and a vertical offset(half of the height of the cell) to the grid center respectively
-
卷积滤波器大小
-
损失函数
-
-
多尺度输入
-
TextBoxes+CRNN进行识别
实验结果
-
定位
-
text spotting和端到端识别
-
效果展示
总结与收获点
- 原始的SSD是无法直接用在文字上的,需要进行许多修改才能达到比较好的效果,这一点作者在实验中也证明了
- 现在越来越多用Faster r-cnn,ssd,yolo,这类一般的目标检测方法进行修改后用在特定的目标检测上(例如文字,行人),这些方法不但速度快,而且鲁棒性也高,很重要一点,越来越倾向于端到端训练,这是因为single stage和传统的step-wise的方法相比有很多优势,例如,总体训练简单,没有stage衔接上的性能损耗,没有逐步的误差积累等等;
论文阅读(XiangBai——【AAAI2017】TextBoxes_A Fast Text Detector with a Single Deep Neural Network)的更多相关文章
-
XiangBai——【AAAI2017】TextBoxes_A Fast Text Detector with a Single Deep Neural Network
XiangBai--[AAAI2017]TextBoxes:A Fast Text Detector with a Single Deep Neural Network 目录 作者和相关链接 方法概括 ...
-
论文阅读笔记三十:One pixel attack for fooling deep neural networks(CVPR2017)
论文源址:https://arxiv.org/abs/1710.08864 tensorflow代码: https://github.com/Hyperparticle/one-pixel-attac ...
-
论文翻译:2020_RESIDUAL ACOUSTIC ECHO SUPPRESSION BASED ON EFFICIENT MULTI-TASK CONVOLUTIONAL NEURAL NETWORK
论文翻译:https://arxiv.53yu.com/abs/2009.13931 基于高效多任务卷积神经网络的残余回声抑制 摘要 在语音通信系统中,回声会降低用户体验,需要对其进行彻底抑制.提出了 ...
-
【论文笔记】Malware Detection with Deep Neural Network Using Process Behavior
[论文笔记]Malware Detection with Deep Neural Network Using Process Behavior 论文基本信息 会议: IEEE(2016 IEEE 40 ...
-
论文笔记——A Deep Neural Network Compression Pipeline: Pruning, Quantization, Huffman Encoding
论文<A Deep Neural Network Compression Pipeline: Pruning, Quantization, Huffman Encoding> Prunin ...
-
Deep Learning 28:读论文“Multi Column Deep Neural Network for Traffic Sign Classification”-------MCDNN 简单理解
读这篇论文“ Multi Column Deep Neural Network for Traffic Sign Classification”是为了更加理解,论文“Multi-column Deep ...
-
论文阅读笔记(二十一)【CVPR2017】:Deep Spatial-Temporal Fusion Network for Video-Based Person Re-Identification
Introduction (1)Motivation: 当前CNN无法提取图像序列的关系特征:RNN较为忽视视频序列前期的帧信息,也缺乏对于步态等具体信息的提取:Siamese损失和Triplet损失 ...
-
论文阅读 | Towards a Robust Deep Neural Network in Text Domain A Survey
摘要 这篇文章主要总结文本中的对抗样本,包括器中的攻击方法和防御方法,比较它们的优缺点. 最后给出这个领域的挑战和发展方向. 1 介绍 对抗样本有两个核心:一是扰动足够小:二是可以成功欺骗网络. 所有 ...
-
论文阅读:Forwarding Metamorphosis: Fast Programmable Match-Action Processing in Hardware for SDN
摘要: 在软件定义网络中,控制平面在物理上与转发平面分离,控制软件使用开放接口(例如OpenFlow)对转发平面(例如,交换机和路由器)进行编程. 本文旨在克服当前交换芯片和OpenFlow协议的两个 ...
随机推荐
-
js巧用apply方法实现数组最值以及合并
尽管js的apply方法在平常的使用中并不多见,但是在某些地方使用的还是很有帮助性的,这里就和大家说两个比较实用的例子:1.数组最大最小值 求数组中的最大最小值,js有相应的方法:Math.min() ...
-
SDK开发断点失效
做SDK开发,一般会创建一个静态库工程,然后添加一个app的Target 可是,Xcode7创建的工程,app的Target中断点有效,能断住,为什么静态库的Target中的断点断不住呀. 断点断住发 ...
-
关于.net的一些基础知识(一)
一.GC工作原理: GC如其名,就是垃圾收集,当然这里仅就内存而言.Garbage Collector(垃圾收集器,在不至于混淆的情况下也成为GC)以应用程序的root为基础,遍历应用程序在Heap上 ...
-
Convert Sorted Array to Balanced Binary Search Tree (BST)
(http://leetcode.com/2010/11/convert-sorted-array-into-balanced.html) Given an array where elements ...
-
如何使用ZEROBRANE STUDIO远程调试COCOS2D-X的LUA脚本(转)
http://www.cocos2d-x.org/docs/manual/framework/native/v2/lua/lua-remote-debug-via-zerobrane/zh ZeroB ...
-
python 字符串转化为json、post请求
在json模块有2个方法, loads():将json数据转化成dict数据 dumps():将dict数据转化成json数据 load():读取json文件数据,转成dict数据 dump():将d ...
-
IPv6绝不仅仅是对IPv4地址长度的增加
众所周知,IPv6 IP地址长度是IPv4 IP地址长度的四倍,是解决IPv4公共网址资源枯竭的最佳技术.的确,IETF在制定IPv6标准时也是基于这一因素考虑的.当时正是90年代初,Web开始出现, ...
-
js day03
一)jQuery常用AJAX-API 目的:简化客户端与服务端进行局部刷新的异步通讯 (1)取得服务端当前时间 简单形式:jQuery对象.load(url) 返回结果自动添加到jQuery对象代表的 ...
-
zabbix系列(九)zabbix3.0实现自动触发zabbix-agent端shell脚本任务
zabbix实现自动触发远程脚本执行命令 Zabbix触发器(trigger)达到阀值后会有动作(action)执行:发送告警信息或执行远程命令 环境 Server:基于centos6.5 final ...
-
[原]Android 初遇Http错误 httpClient.execute
错误源头: HttpResponse response = httpClient.execute(httpget); 错误信息: android.os.NetworkOnMainThreadExcep ...