模型:
microsoft/git-base-coco
GIT(GenerativeImage2Text)模型是一个基于CLIP图像令牌和文本令牌的Transformer解码器。该模型使用“teacher forcing”在许多(图像,文本)对上进行训练。
模型的目标是根据图像令牌和先前的文本令牌预测下一个文本令牌。
模型可以完全访问(即,用于图像令牌使用双向注意力掩码),但仅能访问先前的文本令牌(即,当预测下一个文本令牌时使用因果注意力掩码)。
这使得模型可用于任务如下:
若要使用raw模型进行图像字幕,可以查看感兴趣的任务的微调版本。
关于如何使用的代码示例,请参见相关链接。
训练数据来自于文献中的描述:我们收集了80亿个图像-文本对进行预训练,包括COCO(Lin et al.,2014),Conceptual Captions(CC3M)(Sharma et al.,2018),SBU(Ordonez et al.,2011),Visual Genome(VG)(Krishna et al.,2016),Conceptual Captions(CC12M)(Changpinyo et al.,2021),ALT200M(Hu et al.,2021a)以及另外6亿个数据,遵循了Hu et al.(2021a)中的类似收集过程。
然而,这是指论文中所称的未开源的"GIT"模型。
此检查点是"GIT-base",它是在1000万个图像-文本对上训练的GIT的较小变体。
接下来,模型在COCO上进行了微调。
有关预处理的详细信息,请参考原始存储库。
在验证过程中,会调整每个图像的较短边,然后进行中心裁剪以达到固定分辨率。接下来,使用ImageNet的均值和标准差对帧在RGB通道上进行归一化。
关于评估结果,请参考相关链接。