这篇论文提出了一个精细化场景文本检测框架,使用提出的一个新的名为特征增强的网络,此框架可以直接生成边界框,并且是端到端可训练的。 本文做出的贡献有: 1.提出了一种新的特征增强(FEN)网络,提高了文本检测的召回率和准确率。 2.为了进一步提高文本精细化阶段检测的准确率,本文提出了一种自适应权重(adaptively weighted)的位置铭感ROI Pooling。 3.针对文本精细化检测阶段存在的不均衡问题提出了一种positives mining 策略来进行解决。 4.本文提出的方法在ICDAR2011和2013检测任务上到达了最好的性能
这篇论文的灵感是来自R-FCN(Dai et al.2016)这篇论文,不同于原来的R-FCN网络所做的工作,本文通过任务特殊性,低级和高级语义特征融合来改进网络,并且在文本检测上取得了优异的表现,还提出了积极挖掘策略和自适应权重的ROI Pooling,都提高了文本检测准确性。
下图是本论文所提出的FEN网络的整体框架。(这个图看得头晕,画得有点复杂了。) 一般主流的探测框架都包括两个阶段:一是proposals的生成,二是精细化探测。R-FCN网络也是这样做的。 本文将三个创新部件放入R-FCN网络中,一个是著名的ResNet-101网络(移除了最后的全池化和分类层)。在FEN网络,我们首先通过FE-RPN网络加强了proposal region中的文本特征提取,然后通过Hyper Feature Generation 模块进行文本检测的细化。 在此基础上,我们通过Positives mining 策略来调整正负样本的比例。最后,在文本精细化检测阶段,我们在Hyper特征上使用自适应权重的位置敏感的ROI Pooling,然后产生准确的文本检测结果。
本文使用 Resnet101作文网络的骨干网络,另外集成了以下两个部件。
之前的目标检测研究总喜欢使用33滑动窗口的特征图上来生成RP,本文认为这是不够的。以为大多数文本行的宽度通常比高度大得多,同时高级的语义特征具有更大的接收域,能够获得更多的上下文信息,有利于区分前景对象和背景对象。 如图所示本文选择Res30层的特征输出作为FE-RPN网络的输出,并且增加了两个分支,一个是文本特征和任务特性13卷积层,另一个是最大池化层,1*1卷积层,反卷积层。然后将原始的3×3卷积滑动窗口特征与反卷积层和1×3卷积层的输出连接起来;最后,利用一个新的卷积层和一个ResNet块来实现区域建议的特征增强。
高水平语义特征有利于对象分类,低水平语义特征有利于准确的对象定位。 我们所重用的超特征的中间特征图原本具有相同的空间尺寸,具有三个优势:1)直接提供一些中间残差块的深度特征信息;2)将残差学习并行化,而不是传统的串行残差学习;3)同时提高计算效率(见图1左下角)。
具体的文本检测任务也应该有文本特征锚的设计,我们根据经验选择了6种scales(32、64、112、192、304和416)和5种纵横比(1、2、3、4和6)。但有些anchor是不合理的,最后,我们从FE-RPN子网络中手动保持特征增强图的每个特征点a = 24个锚点。 然后,我们通过等式1在特征增强图的每个特征点上设置设计良好的锚点,以获得候选的RP。 使用NMS,根据得分排序,最终保留200个proposals,这200个propoals很可能涵盖了输入图像中出现的所有文本区域,并将被输入到下面的positives mining层中。
1)在原有的origin proposals的基础上,对其进行扩展,生成两个额外的proposals,为原来的proposal的大小的0.7倍和1.3倍。
2)在排名前50的origin positive proposals只选取前15个,再对这15个proposals进行扩展。
提出的Adaptively Weighted Position-Sensitive RoI Pooling,没看太懂,参考了网上其他人的解释。 在池化的时候,不是单一的7×7格子,而是设计了四种池化方式:3×3,7×7,3×8,3×11,选取得分最高的池化方法。
使用了ICDAR 2011包括229个和255个用于训练和测试的数据集,CDAR 2013包含229张训练图像和233张测试图像,针对以上数据集训练样本较少的情况,同时几乎所有之前的算法都采用了收集大量额外数据集的策略,本文也收集了约4000幅真实场景图像用于训练网络。
1)FENS: 在召回率上有3%的提升 ,在F-measure 上有5% 的提升。
2)Positive Mining:在F-measure上 0.5% 的提升
3)Adaptively weighted position-sensitive RoI Pooling: 在 F-measure 上1.9%的提升。
参考了一些其他人的理解:
https://blog.csdn.net/u013250416/article/details/78897027