DRRG:Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection解读(1)

时间:2024-03-31 15:21:48

前言

关于DRRG网上资料比较少,但是其实作为CVPR最新的成果大家的期待度还是挺高的。我个人在学习的时候就很苦恼,所以处于将心比心,这里将学习心得为大家写下来。

结构

首先,毋庸置疑的DRRG是一个端到端的网络。这正是我们深度学习所追求的效果,端到端能有效地加快模型速度。其次,整个模型被分为两个部分:基于CNN的文本建议网络和基于GCN的关系推理网络。这里我们上图:
DRRG:Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection解读(1)
关于这个图,我要解释一下:首先基于CNN的文本建议网络只到CR箭头那里,也就是说CNN的文本建议网络的输出为:HW8(带有4个通道的TR / TCR分类结果和4个通道的h 1 , h 2 , c o s θ , s i n θ的回归结果)而后面的则是基于GCN的关系推理网络,原理如下图:

DRRG:Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection解读(1)
接下来我们分别对两个部分进行讲解:

1)基于CNN的文本建议网络

如果看过我写的关于EAST的文章,相信大家可以发现。DRRG的结构极其类似EAST算法。类似于EAST的FPN网络,DRRG做了如下几点改变:
1)特征金字塔:在特征提取和特征合并部分特征金字塔层数更多,也就是说合并了更多不同感受野的特征图。
2)采用了新的卷积方式:EAST选择的是11逐点卷积和33普通卷积,而DRRG选用的是33的空间卷积和逐点卷积。但是两者有甚麽区别呢:首先顺序相反,因为普通卷积会整合空间信息和通道信息所以先用11改变通道数,然后再卷积能有效减少参数量。但是空间卷积通道固定,所以他要在逐点卷积之前,然后由逐点卷积改变通道信息,空间卷积没有改变通道数能力。其次后者参数更少,普通卷积是这样的,比方说原卷积核是5536的,普通卷积必须是3336n的。而空间卷积只需是55*36.所以可以有效减少参数量。
3)输出不同:EAST算法直接输出整体的文本框,而DRRG输出的是文本框部件。
这里说一下TCR的计算,挺简单的:1.算出中心线,2.左右缩短0.5w。3.上下扩展0.3h。

2)基于GCN的关系推理网络

首先,这里说几点:1)首先思想类似于ctpn就是先做出小文本框,然后用某种方法连接起来。2)不同ctpn的地方是:1.没有预设的anchor是通过FPN预测小文本框的。2,链接方法不同,传统连接方法是基于cnn的所以称为cc。但是cnn只能整合空间信息和通道信息
,而文本最明显的就是序列特征,也就是我们说的上下文信息。所以用GCN进行推理,效果更好。3)GCN并不是直接连接小文本框,因为实际上FPN输出的就是局部图也就是说一定程度上连接过的。而且是多个局部图,然后通过GCN连接这些局部图给出合理推理。这因为这种方法所以才能实现任意形状文本的预测:
DRRG:Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection解读(1)

总结

我们总结一下DRRG的优点:1.合理的特征金字塔,对不同感受野的文本检测效果更好。
2.新的连接方式,基于GCN的推理方式有比CNN更适合文本部件间的推理关系,真正实现任意文本形状的预测。3.抛弃anchor思想,不再需要预先考虑文本框大小。4.最新的卷积方式有效地减少参数量。

最后

关于DRRG我先写到这里,后续还有对部件的解析,这里由于个人也是粗略学习可能有错误,还请谅解,还有就是为了更好的理解DRRG的结构,请先对EAST和CTPN进行学习。