BLIP-2模型,利用 Flan T5-xxl (一个大型语言模型)。它在Li等人的论文 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 中引入,并于 this repository 首次发布。
免责声明:发布BLIP-2的团队并未为此模型撰写模型卡,因此此模型卡是由Hugging Face团队编写的。
BLIP-2由3个模型组成:一个类似CLIP的图像编码器,一个查询变换器(Q-Former)和一个大型语言模型。
作者从预训练的检查点中初始化图像编码器和大型语言模型的权重,并在训练查询变换器时将它们保持冻结,查询变换器是一个类似BERT的Transformer编码器,将一组"查询令牌"映射到查询嵌入,这样可以弥合图像编码器和大型语言模型的嵌入空间之间的差距。
模型的目标只是根据查询嵌入和之前的文本预测下一个文本标记。
这使得模型可以用于以下任务:
您可以使用原始模型根据图像和可选文本进行条件文本生成。查看 model hub ,以查找您感兴趣的任务的微调版本。
BLIP2-FlanT5使用即插即用的Flan-T5作为语言模型。它继承了来自 Flan-T5 的相同风险和限制:
语言模型(包括Flan-T5)在Rae等人(2021)的研究中可能被用于以有害方式生成语言。在没有事先评估应用程序的安全性和公平性相关问题的情况下,不应直接使用Flan-T5。
BLIP2在从互联网收集的图像-文本数据集(例如 LAION )上进行了微调。因此,模型本身可能容易生成同样不适当的内容或复制底层数据中的固有偏见。
BLIP2没有在真实世界的应用中进行过测试。不应直接部署在任何应用程序中。研究人员应仔细评估模型在特定上下文中的安全性和公平性。
有关代码示例,请参阅 documentation ,或根据您的用例参考下面的片段:
在CPU上运行模型 在GPU上运行模型,完全精度 在半精度(float16)上运行 在8位精度(int8)上运行