[论文复现]Detecting Text in Natural Image with Connectionist Text Proposal Network

时间:2021-05-24 13:49:16

最近一直在复现这篇论文,除了数据外已基本完成,可是没想到昨天开源了[code],只能说我等水货赶不上开源的速度,附上个人的一些中间结果(只训练了200多张图片,网络架构,参数等跟作者的有些出入),然后来说说这篇论文。

[论文复现]Detecting Text in Natural Image with Connectionist Text Proposal Network

 

为什么只是说说这篇论文还不是分析这边论文,主要是这篇论文步骤比较简单,如果比较清楚RPN,基本没什么说的。论文的思想主要借鉴了faster rcnnrpn思想,主要的不同点在于作者观测到RPN比较难预测出整个文本行的框,而将文本行分成一个一个的小框去预测,小框是固定宽度所以主要是预测高度,如果用的是VGG conv5的特征,那么高度就是16。(另外插一个小知识点,本人以前也错过,卷积层的sizepool层的数量没关系,跟stride有关系)

第二点是加入了双向LSTM,根据论文的数据LSTM的作用还是很大,因为在其他论文中不需要双向LSTM,依靠感受野也能分析出来,是不是可以设计一个不同的网络搞定这个问题。

最后一个小不同就是为了精确定位加入了side regression,不过根据我个人训练的结果还是要看具体的文字,如果文字复杂些,还是搞不定

另外个人感觉作者将一个文本行分解成一个一个小块来做是比较实用的策略,降低了特征空间,又不会像另外一篇论文那种使用像素级labeling把问题搞得非常复杂


问题:

1没有很好地处理多方向的文本行

2训练的时候由于有regressionLSTM,需要小心控制梯度爆炸。


2017/2/15更新

根据作者提供的测试代码重新修改了训练代码(发现自己写的跟作者的还是有比较大的差距的),加入了side refinement,数据方面自己标注了2000多张图片,最后的训练效果肯定跟作者的有出入

[论文复现]Detecting Text in Natural Image with Connectionist Text Proposal Network

[论文复现]Detecting Text in Natural Image with Connectionist Text Proposal Network