LayoutLMv3

Microsoft Document AI | GitHub

模型说明

LayoutLMv3是一个用于文档AI的预训练多模态Transformer模型，具备统一的文本和图像遮蔽功能。简单的统一架构和训练目标使得LayoutLMv3成为通用的预训练模型。例如，LayoutLMv3可以被微调以用于以文本为中心的任务，包括表单理解、收据理解和文档视觉问答，以及以图像为中心的任务，如文档图像分类和文档布局分析。

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei, ACM Multimedia 2022.

引用

如果您在研究中使用到LayoutLM，请引用以下论文：

@inproceedings{huang2022layoutlmv3,
  author={Yupan Huang and Tengchao Lv and Lei Cui and Yutong Lu and Furu Wei},
  title={LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking},
  booktitle={Proceedings of the 30th ACM International Conference on Multimedia},
  year={2022}
}

许可证

本项目的内容本身按照Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)许可注册。代码的部分基于transformers项目。请遵守Microsoft开源行为准则。

作者:

Microsoft

数据集大小:

1.4 GB