MatCha -基础模型的模型卡片

该模型是MatCha的基础模型，仅用于微调目的。

摘要

论文的摘要中提到：

视觉语言数据，如图表和信息图，在人类世界中无处不在。然而，最先进的视觉语言模型在处理这些数据时表现不佳。我们提出MATCHA（数学推理和图表去噪预训练），以增强视觉语言模型在联合建模图表/绘图和语言数据方面的能力。具体而言，我们提出了几个预训练任务，涵盖了图表解构和数值推理，这是视觉语言建模的关键能力。我们从最近提出的图像到文本视觉语言模型Pix2Struct开始进行MATCHA预训练。在PlotQA和ChartQA等标准基准测试中，MATCHA模型的性能超过最先进方法近20％。我们还检查了MATCHA预训练在诸如屏幕截图，教科书图示和文档图形等领域的迁移效果，并观察到整体改进，验证了MATCHA预训练在更广泛的视觉语言任务中的有用性。

使用模型

从T5x转换为Hugging Face

您可以按照以下方式使用 convert_pix2struct_checkpoint_to_pytorch.py 脚本：

python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path PATH_TO_T5X_CHECKPOINTS --pytorch_dump_path PATH_TO_SAVE --is_vqa

如果要转换大模型，请运行：

python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path PATH_TO_T5X_CHECKPOINTS --pytorch_dump_path PATH_TO_SAVE --use-large --is_vqa

保存后，您可以使用以下代码段推送转换后的模型：

from transformers import Pix2StructForConditionalGeneration, Pix2StructProcessor

model = Pix2StructForConditionalGeneration.from_pretrained(PATH_TO_SAVE)
processor = Pix2StructProcessor.from_pretrained(PATH_TO_SAVE)

model.push_to_hub("USERNAME/MODEL_NAME")
processor.push_to_hub("USERNAME/MODEL_NAME")

贡献

此模型最初由Fangyu Liu、Francesco Piccinno等人贡献，并由 Younes Belkada 添加到Hugging Face生态系统中。

引用

如果要引用此工作，请考虑引用原始论文：

@misc{liu2022matcha,
      title={MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering}, 
      author={Fangyu Liu and Francesco Piccinno and Syrine Krichene and Chenxi Pang and Kenton Lee and Mandar Joshi and Yasemin Altun and Nigel Collier and Julian Martin Eisenschlos},
      year={2022},
      eprint={2212.09662},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

作者:

Google AI

数据集大小:

1.06 GB

MatCha -基础模型的模型卡片

目录

摘要

使用模型

从T5x转换为Hugging Face

贡献

引用