文本检测和识别综述

参考ReLaText: Exploiting Visual Relationships for Arbitrary-Shaped Scene Text Detection with Graph Convolutional Networks 

在深度学习时代之前,只有少数作品关注任意形状的文本检测。

Shivakumara 等人。 [43] 提出了一种基于四叉树的方法来检测视频中的弯曲文本。

法布里齐奥等人。 [44] 提出将提取的候选文本 CC 分组为一个图形,其中基于某些规则属性检测任意形状的文本行。

由于这些方法的性能严重依赖启发式规则或手工制作的特征,因此它们不如最近基于深度学习的方法稳健。准确性和能力。

这些方法大致可以分为两类:自顶向下的方法和自底向上的方法。

自顶向下的方法。

自顶向下方法通常将文本视为一种特殊的对象,并直接采用最先进的自顶向下对象检测或实例分割框架来解决文本检测问题。

Jaderberg 等人[11]首先采用 R-CNN [45] 进行文本检测,但其性能受到传统区域提议生成方法的限制 [46]。

后来,钟等[47]、廖等[2]和 Guptaet al.[12]采用 Faster R-CNN、SSD 和 YOLO 分别检测水平文本。

为了将 FasterR-CNN 和 SSD 扩展到多向文本检测,Maet al.[13]和刘等人[3]建议使用旋转的矩形或四边形锚点来寻找倾斜的文本建议。

由于直接预测四边形边界框的顶点坐标存在关于顶点顺序的标签混淆问题,Liu et al. [48]建议将边界框离散为关键边缘,并使用多类分类器学习正确的匹配类型。

此外,由于 Faster R-CNN 和 SSD 使用的锚点机制对于文本检测任务不灵活,Zhou et al. [5]和他等人[1]遵循 DenseBox [22] 的“无锚”思想,并提出使用 FCN [23] 通过图像的所有位置和尺度直接输出相关文本实例的像素级文本分数和边界框。

尽管更灵活,但基于 DenseBox 的 onestagetext 检测器的功能有限,因为它们无法有效检测长文本实例 [5]。

为了解决这个问题,Zhong 等人。 [49] 提出使用DenseBox 替换原来的基于anchor 的RPNin Faster R-CNN,这样他们的基于Faster R-CNN 的文本检测器可以摆脱anchormechanism 的限制,同时保持多方向文本检测的良好精度。

另一种方法[15]首先通过对检测到的文本边界框的角点进行采样和分组来生成候选框,其中不合理的框被位置敏感分割分数淘汰。

由于上述文本检测器预测的矩形或四边形边界框不能足够紧密地包围弯曲文本,因此这些方法无法有效检测弯曲文本。

为了将 R-FCN [50] 扩展到弯曲文本检测,Liu 等人。 [25] 修改了边界框回归模块以预测每个文本建议有 14 个点的更紧密的多边形边界框,并通过循环神经网络进一步细化以使边界更准确。

旺格等人[26]认为固定14个点的多边形对于长弯曲文本行不够精确,因此他们提出使用循环神经网络来预测不同形状文本的不同点数的多边形。

同时,另一类方法 [27-30] 将文本检测制定为实例分割问题,并借用了现有的自顶向下实例分割框架,如 Mask R-CNN [31] 来预测每个正提议中相应文本实例的分割掩码和可选的额外几何属性。尽管这些方法,尤其是基于 Mask RCNN 的方法 [28, 29],在大多数基准数据集(如 Total-Text 和 CTW1500)上取得了优异的性能,但它们对附近的长曲线文本实例并不鲁棒。

唐等人。 [32] 介绍了一个新的密集和任意形状的文本检测数据集,即 DAST1500,它主要由商品图像组成,以证明这一点。

主要原因是现有自顶向下方法生成的附近长弯曲文本实例的矩形proposals高度重叠,并且其中一些可能被非最大抑制(NMS)算法错误地抑制,从而无法正确检测到相应的文本实例。底部-up 方法。

自下而上的方法通常遵循组件分组范式,即首先检测文本组件,然后将这些组件分组为文本实例。

与自顶向下的方法相比,自底向上的方法可以摆脱区域提议生成模块的局限性。

根据文本成分的粒度,这些方法可以进一步分为两类:像素级方法和段级方法。

1)像素级:基于像素的方法通常首先利用语义分割或实例分割框架来预测像素级文本性得分图,然后使用不同的方法将文本像素分组为单词/文本行并计算相应的边界框。

Zhang et al.[10]首先使用 FCN 来预测文本块,从中提取候选字符,然后使用后处理方法生成文本行。该类别的最近工作直接使用局部像素连接(例如,8-邻域)来将二值化文本分数映射上的像素合并为 CC,每个 CC 代表一个单词/文本行。

为了避免将附近的单词/文本行合并在一起或将单词/文本行过度分割成碎片,这些方法试图利用其他辅助信息,例如链接预测 [4, 51],渐进式扩展[52, 53],文本边界预测 [35]、文本中心线提取 [37、54]、文本中心边界概率预测 [55]、马尔可夫聚类 [56]、方向场预测 [36]、像素嵌入映射 [57] 和字符整体估计 [58]以提高像素合并性能。

虽然这些基于局部像素连接的线分组方法在基准数据集上取得了优异的性能,但我们发现它们倾向于将具有大字符间距的文本实例过度分割成片段,这也在 [4, 36, 37] 中提到。2) 段级:基于段的方法首先检测文本段,每个文本段都包含单词/文本行的一个字符或部分。

这些方法的难点还在于如何将检测到的文本段稳健地分组为单词/文本行。

此类早期的作品,如 CTPN [14] 和 Wordsup [33] 采用基于规则的方法将检测到的文本片段分组为水平或多向文本实例,这对弯曲文本不具有鲁棒性。最近,Liu 等人。 [34] 提出了一种基于字符嵌入的方法,将检测到的字符分组为弯曲的文本行。

然而,他们在 Total-Text 上报告的结果比像素级方法差。

我们提出的 ReLaText 也是一种段级自下而上的方法,但我们将文本检测表述为视觉关系检测问题,并利用图卷积网络来预测文本段之间的链接关系,以便可以对任意形状的文本实现更稳健的文本行分组。 2.2.

视觉关系检测自从VRD[59]等一些大规模数据集发布以来,视觉关系检测经历了快速的发展。

视觉关系定义为 hsubject;谓词;宾语三元组,其中“主语”通过“谓语”关系与“宾语”相关。

视觉关系检测的目标是检测对象以及从图像中预测对象对之间的关系。

该任务的典型范式由三个模块组成,即个体对象检测、主体-对象对构建和关系分类 [59-65]。

由于上下文信息对于提高关系分类的准确性很重要,大多数以前的方法都试图通过同时将主语和宾语提议以及它们的联合作为输入来预测谓词关系来利用更广泛的上下文 [59-62]。

Laterworks [63, 64, 66] 提出使用 GCN 或其变体来进一步增强上下文信息。

除了上下文信息之外,对象之间的语义关系及其相应的谓词对于提高准确性也非常重要[59,62,67]。

为了利用这些信息,Lu 等人。 [59] 利用来自语义词嵌入的语言先验来微调预测关系的可能性。

Yu et al. [62] 提出将内部和外部的语言知识提炼成一个深度神经网络来规范视觉模型学习。

在这项工作中,我们提出了一种新的基于GCN 的链接关系预测方法,以提高链接预测的准确性。2.3.

图卷积网络尽管深度学习已经彻底改变了许多机器学习任务,其数据通常以欧几里得空间表示,但仍有大量实际应用需要处理非欧几里得数据,这些数据通常用任意结构的图表示,对现有机器学习提出了重大挑战算法。最近,出现了许多关于扩展图数据深度学习方法的研究,我们建议读者参考 [68] 进行全面调查。

Earlyworks 首先尝试使用递归神经网络来处理此类图结构数据 [69]。

这个方向的进展可以分为两类:基于光谱的方法和基于空间的方法。

一般来说,基于谱的方法 [70, 71] 从图信号处理的角度处理图数据,并基于谱图理论定义卷积运算。

相反,基于空间的方法[72-74]直接在图上定义卷积操作,只涉及空间上的近邻。这一系列工作与本文最相关。

这些方法的挑战之一是设计图卷积算子来处理不同度数的节点。

Duvenaud 等人[75]通过为每个节点度学习一个单独的权重矩阵来实现它。

汉密尔顿等人。 [74]采用采样策略为每个节点获取固定数量的邻居。

后来,Kipf 等人。 [42] 使用局部一阶近似简化了基于光谱的图卷积,这弥合了基于光谱的方法和基于空间的方法之间的差距。

最近,GCN 的最新进展包括注意力加权边缘 [76]、动态边缘卷积 [77] 等。

版权声明:本文为CSDN博主「samoyan」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/baoyan2015/article/details/121900137

samoyan

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐