模型:
microsoft/git-large-r-coco
R = 移除cc12m数据集中的一些不良描述并重新训练
GIT(GenerativeImage2Text)模型是基于COCO进行fine-tuning的大型模型。它是由Wang等人在 GIT: A Generative Image-to-text Transformer for Vision and Language 论文中介绍并首次发布的。
免责声明:发布GIT模型的团队并未为该模型编写模型卡片,因此这个模型卡片是由Hugging Face团队编写的。
GIT是一个Transformer解码器,其条件是CLIP图像标记和文本标记。该模型使用“teacher forcing”在大量的(图像,文本)对上进行训练。
该模型的目标是根据图像标记和前一个文本标记来预测下一个文本标记。
该模型可以完全访问图像补丁标记(即使用双向注意掩码),但在预测下一个文本标记时,它只能访问先前的文本标记(即使用因果注意掩码)。
这使得该模型可用于以下任务:
您可以使用原始模型进行图像描述。有关您感兴趣任务的fine-tuning版本,请参阅 model hub 。
有关代码示例,请参阅 documentation 。
从论文中得知:
我们收集了80亿个图像-文本对进行预训练,其中包括COCO(Lin et al., 2014),Conceptual Captions(CC3M)(Sharma et al., 2018),SBU(Ordonez et al., 2011),Visual Genome(VG)(Krishna et al., 2016),Conceptual Captions(CC12M)(Changpinyo et al., 2021),ALT200M(Hu et al., 2021a)以及根据Hu et al.(2021a)中的类似收集流程额外收集的60亿个数据点。
=> 然而,这适用于论文中称为"GIT"的模型,该模型未开源。
此检查点是"GIT-large",是在2000万个图像-文本对上训练的GIT的较小变种。
接下来,该模型在COCO上进行了fine-tuning。
有关更多详细信息,请参阅 paper 中的表11。
有关训练期间的预处理详细信息,请参阅原始代码库。
在验证过程中,将每个图像的较短边调整大小,然后进行中心裁剪以得到固定大小的分辨率。接下来,使用ImageNet的均值和标准偏差对RGB通道进行归一化。
有关评估结果,请参阅 paper 。