模型:
microsoft/git-large-coco
GIT(GenerativeImage2Text)模型是大型版本,通过对COCO进行精细调优而得到的。它由 Wang 等人在 GIT: A Generative Image-to-text Transformer for Vision and Language 论文中提出,并首次在 this repository 中发布。
免责声明:发布 GIT 模型的团队未为该模型编写模型卡片,因此该模型卡片由 Hugging Face 团队编写。
GIT 是一个基于 CLIP 图像令牌和文本令牌的 Transformer 解码器。通过大量的(图像、文本)对进行"teacher forcing" 训练模型。
模型的目标是在给定图像令牌和先前文本令牌的情况下,预测下一个文本令牌。
模型可以完全访问(即使用双向注意力掩码)图像块令牌,但在预测下一个文本令牌时,模型仅有先前文本令牌的访问权限(即使用因果注意力掩码)。
图片百科这使得模型可以用于以下任务:
您可以使用原始模型进行图像字幕生成。有兴趣的话,可以查看 model hub ,寻找感兴趣任务的经过微调的版本。
有关代码示例,请参考 documentation 。
根据论文:
我们收集了0.8B个图像-文本对进行预训练,其中包括 COCO(Lin 等,2014年),Conceptual Captions(CC3M)(Sharma 等,2018年),SBU(Ordonez 等,2011年),Visual Genome(VG)(Krishna 等,2016年),Conceptual Captions(CC12M)(Changpinyo 等,2021年),ALT200M(Hu 等,2021a年),以及在 Hu 等(2021a年)中遵循类似收集过程的额外0.6B数据。
=> 但是这是论文中所称的“GIT”模型,它未公开源代码。
这个检查点是“GIT-large”,它是在2000万个图像-文本对上训练而得到的GIT的较小变种。
接下来,该模型在COCO上进行了精细调优。
有关详细信息,请参阅 paper 中的表格11。
有关训练期间的预处理细节,请参考原始代码库。
在验证期间,将每个图像的较短边调整大小,然后进行中心裁剪以达到固定分辨率大小。接下来,根据 ImageNet 的均值和标准差对帧在 RGB 通道上进行归一化。
如需评估结果,请参阅 paper 。