Feature Enhancement Network: A Refined Scene Text Detector

mac2024-05-19 38

Feature Enhancement Network: A Refined Scene Text Detector

介绍

这篇论文提出了一个精细化场景文本检测框架，使用提出的一个新的名为特征增强的网络，此框架可以直接生成边界框，并且是端到端可训练的。本文做出的贡献有： 1.提出了一种新的特征增强（FEN）网络，提高了文本检测的召回率和准确率。 2.为了进一步提高文本精细化阶段检测的准确率，本文提出了一种自适应权重（adaptively weighted）的位置铭感ROI Pooling。 3.针对文本精细化检测阶段存在的不均衡问题提出了一种positives mining 策略来进行解决。 4.本文提出的方法在ICDAR2011和2013检测任务上到达了最好的性能

方法介绍

下图是本论文所提出的FEN网络的整体框架。（这个图看得头晕，画得有点复杂了。）一般主流的探测框架都包括两个阶段：一是proposals的生成，二是精细化探测。R-FCN网络也是这样做的。本文将三个创新部件放入R-FCN网络中，一个是著名的ResNet-101网络（移除了最后的全池化和分类层）。在FEN网络，我们首先通过FE-RPN网络加强了proposal region中的文本特征提取，然后通过Hyper Feature Generation 模块进行文本检测的细化。在此基础上，我们通过Positives mining 策略来调整正负样本的比例。最后，在文本精细化检测阶段，我们在Hyper特征上使用自适应权重的位置敏感的ROI Pooling，然后产生准确的文本检测结果。

Feature Enhancement Network Stem

本文使用 Resnet101作文网络的骨干网络，另外集成了以下两个部件。

Feature Enhancement RPN(FE-RPN):

之前的目标检测研究总喜欢使用33滑动窗口的特征图上来生成RP，本文认为这是不够的。以为大多数文本行的宽度通常比高度大得多，同时高级的语义特征具有更大的接收域，能够获得更多的上下文信息，有利于区分前景对象和背景对象。如图所示本文选择Res30层的特征输出作为FE-RPN网络的输出，并且增加了两个分支，一个是文本特征和任务特性13卷积层，另一个是最大池化层，1*1卷积层，反卷积层。然后将原始的3×3卷积滑动窗口特征与反卷积层和1×3卷积层的输出连接起来;最后，利用一个新的卷积层和一个ResNet块来实现区域建议的特征增强。

Hyper Feature Genration:

高水平语义特征有利于对象分类，低水平语义特征有利于准确的对象定位。我们所重用的超特征的中间特征图原本具有相同的空间尺寸，具有三个优势:1)直接提供一些中间残差块的深度特征信息;2)将残差学习并行化，而不是传统的串行残差学习;3)同时提高计算效率(见图1左下角)。

Text Proposals Generation

Text characteristic anchor design

具体的文本检测任务也应该有文本特征锚的设计，我们根据经验选择了6种scales(32、64、112、192、304和416)和5种纵横比(1、2、3、4和6)。但有些anchor是不合理的，最后，我们从FE-RPN子网络中手动保持特征增强图的每个特征点a = 24个锚点。然后，我们通过等式1在特征增强图的每个特征点上设置设计良好的锚点，以获得候选的RP。使用NMS,根据得分排序，最终保留200个proposals，这200个propoals很可能涵盖了输入图像中出现的所有文本区域，并将被输入到下面的positives mining层中。

Positives Mining

１）在原有的origin proposals的基础上，对其进行扩展，生成两个额外的proposals，为原来的proposal的大小的0.7倍和1.3倍。

２）在排名前５０的origin positive proposals只选取前１５个，再对这１５个proposals进行扩展。

Text Detection Refinement

提出的Adaptively Weighted Position-Sensitive RoI Pooling，没看太懂，参考了网上其他人的解释。在池化的时候，不是单一的７×７格子，而是设计了四种池化方式：３×３，７×７，３×８，３×１１，选取得分最高的池化方法。

数据集

使用了ICDAR 2011包括229个和255个用于训练和测试的数据集，CDAR 2013包含229张训练图像和233张测试图像，针对以上数据集训练样本较少的情况，同时几乎所有之前的算法都采用了收集大量额外数据集的策略，本文也收集了约4000幅真实场景图像用于训练网络。

Quantitative evaluation

１）FENS:　在召回率上有3%的提升，在F-measure 上有5% 的提升。

２）Positive Mining:在F-measure上 0.5% 的提升

３）Adaptively weighted position-sensitive RoI Pooling: 在 F-measure 上1.9%的提升。

Result

参考了一些其他人的理解：

https://blog.csdn.net/u013250416/article/details/78897027

最新回复(0)

Feature Enhancement Network: A Refined Scene Text Detector

Feature Enhancement Network: A Refined Scene Text Detector

介绍

相关介绍

方法介绍

Feature Enhancement Network Stem

Feature Enhancement RPN(FE-RPN):

Hyper Feature Genration:

Text Proposals Generation

Text characteristic anchor design

Positives Mining

Text Detection Refinement

数据集

Quantitative evaluation

Result