文章目录[隐藏]
一. 项目介绍
本文是基于mask rcnn的表格检测和结构识别的工程,发表与CVPR2020。作者把训练好的模型、代码、训练数据全部开源了,属于良心之作,本文将全面的解析这篇论文。
代码地址:https://github.com/DevashishPrasad/CascadeTabNet
二. 主要贡献
1. 作者提出《CasecadeTabNet》方法,该方法可端到端训练,可同时实现表格检测和表格结构识别;
2. 作者提出两阶段的迁移学习算法,在很少的场景数据下就可以训练出不错的效果;
3. 提出两种表格数据增强方式,并证明其有效性;
4. 根据作者的需要,作者手工标注了ICDAR 19数据集,并将其开源。
三. 算法流程
图片经过mask rcnn,对于无线和少线表格,通过cell masks的位置确定表格结构;对于全线的表格,通过直线检测的方法获得表格结构;最后输出xml文件。
四. 消融实验
1. 证明数据增强的有效性
2. 与其他模型对比
3. 迁移学习的效果
五. 效果展示
我根据论文,用作者提供的数据训练了模型,并测试,取得不错的效果。
下一期将介绍该工程环境配置和如何用自己的数据训练模型,技术交流请联系博主。
版权声明:本文为CSDN博主「CV-deeplearning」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/Guo_Python/article/details/121328002
暂无评论