模型:

microsoft/layoutxlm-base

英文

LayoutXLM

Multimodal (text + layout/format + image) pre-training for document AI

LayoutXLM是LayoutLMv2的多语言变种。

可以在Transformers库的文档中找到该模型的文档 here

Microsoft Document AI | GitHub

Introduction

LayoutXLM是一种用于多语言文档理解的多模态预训练模型,旨在消除视觉丰富的文档理解中的语言障碍。实验结果表明,它在XFUND数据集上显著优于现有的跨语言预训练模型。

LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding

Yiheng Xu, Tengchao Lv, Lei Cui, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Furu Wei, arXiv Preprint 2021