论文笔记 CVPR 2019|Modular Multimodal Architecture for Document Classification

1 简介

论文题目:Modular Multimodal Architecture for Document Classification
论文来源:CVPR 2019
论文链接:https://arxiv.org/abs/1912.04376

1.1 创新

  • 提出一个模型,使用视觉信息和文本信息进行图片分类。

2 方法

在这里插入图片描述
模型的整体框架如上图,主要分为下面3个部分:

2.1 Image Model

使用两种模型AlexNet和VGG16,结构图如下:
在这里插入图片描述

2.2 Text Model

首先使用开源工具engine Tesseract OCR抽取图片中的文本,然后使用Bag-of-Words模型进行分类,结构图如下:
在这里插入图片描述

2.3 Meta-classifier

使用XGBoost模型作为Meta-classifier,限制树的深度来防止过拟合,不使用正则化参数。

3 实验

学习率衰减函数如下,

l

m

a

x

l_max

lmax为初始学习率,

l

m

i

n

l_min

lmin为需要的最小学习率,k为epoch中的batch数,N为每个epoch中的batch数量:
在这里插入图片描述
单个模型的实验效果如下:
在这里插入图片描述
多模态模型的实验效果如下:
在这里插入图片描述
与其他模型的对比实验效果:
在这里插入图片描述

版权声明:本文为CSDN博主「hlee-top」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/o11oo11o/article/details/122463001

hlee-top

我还没有学会写个人说明!

暂无评论

发表评论

相关推荐