1、(2016)CTPN,基础网络框架:VGG16,BLSTM利用图像上下文的信息特征,FC,支持水平和倾斜文本的检测
- 《Detecting text in natural image with connectionist text proposal network》
-
具体的步骤
-
首先,用VGG16的前5个Conv stage得到feature map,大小为W*H*C
-
用3*3的滑动窗口在前一步得到的feature map上提取特征,利用这些特征来对多个anchor进行预测,这里anchor定义与之前faster-rcnn中的定义相同,也就是帮我们去界定出目标待选区域。
-
将上一步得到的特征输入到一个双向的LSTM中,输出W*256的结果,再将这个结果输入到一个512维的全连接层(FC)
-
最后通过分类或回归得到的输出主要分为三部分,根据上图从上到下依次为2k vertical coordinates:表示选择框的高度和中心的y轴的坐标;2k scores:表示的是k个anchor的类别信息,说明其是否为字符;k side-refinement表示的是选择框的水平偏移量。本文实验中anchor的水平宽度都是16个像素不变,也就是说我们微分的最小选择框的单位是“16像素”。
-
用文本构造的算法,将我们得到的细长的矩形,然后将其合并成文本的序列框。
2、(2017)EAST,基础框架:基于PVANet的FCN、多尺度融合之后,直接进行像素级的文本块检测,没有RPN,单词分割,子块合并等,故速度很快。
- 《East: An efficient and accurate scene text detection》
- 有旋转矩形框标注的输出信息:1个score+4个回归的框+1个角度信息
- 任意四边形标注的输出信息:1个score+8个坐标信息
3、(2017)SegLink,6种尺度上的文本块检测,SSD的改进,多方向、速度块、精度高、易训练、任意长度的文本
- 《Detecting oriented text in natural images by link segments》
4、pixelLink,基础网络:基于VGG16的FCN,使用文本二分类和链接二分类
- 《pixelLink:detecting scene text via instance segmentation》
5、RRPN,加入了旋转因素,旋转感兴趣区域池化层(RROI),标注格式为(xyhw),可旋转的候选框
- 《Arbitrary-oriented scene text detection via ratation proposals》
- 不仅仅只考虑文本框的3个长宽比:1:2、1:5、1:8,还考虑6个方向:-30\0\30\60\90\120,3种大小:8\16\32
- 多任务回归
6、FTSN,fused text segmentation networks,基础网络框架:Resnet-101,使用了分割网络,支持倾斜的文本,有多尺度融合
7、DMPnet,Deep matching prior network,四边形候选框非矩形,先计算四边形和标记框的面积重合度,四个顶点到中心点的距离,计算出目标loss,建议采用Ln替代L1,L2
8、Textboxes,给予SSD,细长型文本
9、Textboxes++,在textboxes基础上增加了对倾斜文本的检测
10、TextSnake,第一个弯曲文本加成呢,基于语义分割的,但是后处理复杂
11、(2019)SPCNet,基础网络:MASK RCNN,增加了Text Context(TCM)和Re_Score(Rs)可以抑制错误样本
参考链接:
https://blog.csdn.net/SIGAI_CSDN/article/details/80858565