CascadeTabNet 论文阅读笔记

一. 项目介绍

本文是基于mask rcnn的表格检测和结构识别的工程,发表与CVPR2020。作者把训练好的模型、代码、训练数据全部开源了,属于良心之作,本文将全面的解析这篇论文。
代码地址:https://github.com/DevashishPrasad/CascadeTabNet

二. 主要贡献

1. 作者提出《CasecadeTabNet》方法,该方法可端到端训练,可同时实现表格检测和表格结构识别;

在这里插入图片描述

2. 作者提出两阶段的迁移学习算法,在很少的场景数据下就可以训练出不错的效果;

在这里插入图片描述

3. 提出两种表格数据增强方式,并证明其有效性;

在这里插入图片描述

4. 根据作者的需要,作者手工标注了ICDAR 19数据集,并将其开源。

三. 算法流程

在这里插入图片描述
图片经过mask rcnn,对于无线和少线表格,通过cell masks的位置确定表格结构;对于全线的表格,通过直线检测的方法获得表格结构;最后输出xml文件。

四. 消融实验

1. 证明数据增强的有效性

在这里插入图片描述

2. 与其他模型对比

在这里插入图片描述

3. 迁移学习的效果

在这里插入图片描述

五. 效果展示

在这里插入图片描述

我根据论文,用作者提供的数据训练了模型,并测试,取得不错的效果。
下一期将介绍该工程环境配置和如何用自己的数据训练模型,技术交流请联系博主。
在这里插入图片描述

版权声明:本文为CSDN博主「CV-deeplearning」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/Guo_Python/article/details/121328002

CV-deeplearning

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐