模型:

laion/CLIP-ViT-B-32-xlm-roberta-base-laion5B-s13B-b90k

类库:

OpenCLIP

预印本库:

arxiv:1910.04867

许可:

mit
英文

CLIP ViT-B/32 xlm roberta base - LAION-5B 模型卡片

目录

  • 模型细节
  • 用途
  • 训练细节
  • 评估
  • 致谢
  • 引用
  • 如何开始使用该模型
  • 模型细节

    模型描述

    使用 LAION-5B 数据集和 OpenCLIP 训练的 CLIP ViT-B/32 xlm roberta base 模型。

    模型训练由 Romain Beaumont 在 stability.ai 集群上完成。

    用途

    直接使用

    零样本图像分类、图像和文本检索等。

    下游应用

    图像分类和其他图像任务微调、线性探测图像分类、图像生成引导和调整等。

    训练细节

    训练数据

    该模型使用完整的 LAION-5B 数据集进行训练。

    训练过程

    使用训练数据的13B样本进行批量大小为90k的训练,详见 https://wandb.ai/rom1504/open-clip/reports/xlm-roberta-base-B-32--VmlldzoyOTQ5OTE2

    模型在视觉方面为 B/32,文本方面使用预训练权重初始化的 xlm roberta base 模型。

    评估

    评估是使用 LAION CLIP Benchmark suite 中的代码进行的。

    测试数据、因素和指标

    测试数据

    使用VTAB+(VTAB与额外的鲁棒性数据集的组合)进行分类,并使用COCO和Flickr进行检索。

    结果

    该模型达到以下结果:

    • imagenet 1k 62.33%(与基线相比为62.9%)
    • mscoco 63.4%(与基线相比为60.8%)
    • flickr30k 86.2%(与基线相比为85.4%)

    进行了初步的多语言评估:意大利的 imagenet1k 为 43%(与英文 B/32 的 21% 相比),日本的 imagenet1k 为 37%(与英文 B/32 的 1% 相比,与 B/16 clip 日语 的 50% 相比)。它显示了多语言特性确实存在,如预期那样。更大的模型将获得更好的性能。

    致谢

    感谢 stability.ai 提供用于训练该模型的计算资源。

    引用

    BibTeX:

    除了即将发表的 LAION-5B 论文( https://laion.ai/blog/laion-5b/ )之外,请引用:

    OpenAI CLIP 论文

    @inproceedings{Radford2021LearningTV,
      title={Learning Transferable Visual Models From Natural Language Supervision},
      author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
      booktitle={ICML},
      year={2021}
    }
    

    OpenCLIP 软件

    @software{ilharco_gabriel_2021_5143773,
      author       = {Ilharco, Gabriel and
                      Wortsman, Mitchell and
                      Wightman, Ross and
                      Gordon, Cade and
                      Carlini, Nicholas and
                      Taori, Rohan and
                      Dave, Achal and
                      Shankar, Vaishaal and
                      Namkoong, Hongseok and
                      Miller, John and
                      Hajishirzi, Hannaneh and
                      Farhadi, Ali and
                      Schmidt, Ludwig},
      title        = {OpenCLIP},
      month        = jul,
      year         = 2021,
      note         = {If you use this software, please cite it as below.},
      publisher    = {Zenodo},
      version      = {0.1},
      doi          = {10.5281/zenodo.5143773},
      url          = {https://doi.org/10.5281/zenodo.5143773}
    }
    

    如何开始使用该模型

    https://github.com/mlfoundations/open_clip