1 简介
论文题目:Modular Multimodal Architecture for Document Classification
论文来源:CVPR 2019
论文链接:https://arxiv.org/abs/1912.04376
1.1 创新
- 提出一个模型,使用视觉信息和文本信息进行图片分类。
2 方法
模型的整体框架如上图,主要分为下面3个部分:
2.1 Image Model
使用两种模型AlexNet和VGG16,结构图如下:
2.2 Text Model
首先使用开源工具engine Tesseract OCR抽取图片中的文本,然后使用Bag-of-Words模型进行分类,结构图如下:
2.3 Meta-classifier
使用XGBoost模型作为Meta-classifier,限制树的深度来防止过拟合,不使用正则化参数。
3 实验
学习率衰减函数如下,
l
m
a
x
l_max
lmax为初始学习率,
l
m
i
n
l_min
lmin为需要的最小学习率,k为epoch中的batch数,N为每个epoch中的batch数量:
单个模型的实验效果如下:
多模态模型的实验效果如下:
与其他模型的对比实验效果:
版权声明:本文为CSDN博主「hlee-top」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/o11oo11o/article/details/122463001
暂无评论