英文

BLIP-2,OPT-6.7b,基于COCO数据集进行微调

BLIP-2模型是基于 OPT-6.7b (一个具有67亿参数的大型语言模型)的改进版本。它是由李等人在 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 论文中提出,并在 this repository 首次发布。

免责声明:发布BLIP-2模型的团队没有为该模型编写模型卡片,因此此模型卡片由Hugging Face团队编写。

模型描述

BLIP-2由3个模型组成:类似CLIP的图像编码器,查询转换器(Q-Former)和大型语言模型。

作者将图像编码器和大型语言模型的权重从预训练的检查点初始化,并在训练查询转换器时将它们保持冻结。查询转换器是一种类似BERT的Transformer编码器,将一组“查询令牌”映射到查询嵌入,用于连接图像编码器和大型语言模型的嵌入空间之间的差距。

该模型的目标很简单,即根据查询嵌入和先前的文本预测下一个文本标记。

这使得该模型可以用于以下任务:

  • 图像字幕
  • 视觉问答(VQA)
  • 通过将图像和先前的对话作为提示输入模型,进行类似聊天的对话

直接使用和下游应用

您可以使用原始模型根据图像和可选文本进行条件文本生成。请参考 model hub ,查找您感兴趣的任务的微调版本。

偏见、风险、限制和道德考虑

BLIP2-OPT使用现成的OPT作为语言模型。它继承了Meta模型卡片中提到的相同的风险和限制。

与其他大型语言模型一样,OPT-175B在训练数据的多样性(或其缺乏多样性)对模型的质量产生下游影响方面存在一些限制和风险。OPT-175B在生成多样性和产生虚构结果方面也可能存在质量问题。总的来说,OPT-175B无法摆脱困扰现代大型语言模型的各种问题。

BLIP2经过图像文本数据集(例如 LAION )的微调,这些数据集是从互联网上收集来的。因此,模型本身可能会生成具有相同不适当内容或复制底层数据中存在的偏见的内容。

BLIP2尚未在真实世界应用中进行测试。不应直接部署该模型在任何应用中。研究人员在部署模型之前应仔细评估模型对于具体环境中的安全性和公平性。

如何使用

有关代码示例,请参考 documentation