模型:

laion/CLIP-ViT-L-14-DataComp.XL-s13B-b90K

任务:

零样本图像分类

类库:

PyTorch OpenCLIP

数据集:

mlfoundations/datacomp_pools 3Amlfoundations/datacomp_pools

其他:

clip

预印本库:

arxiv:2304.14108

许可:

mit

模型介绍文件清单

英文

CLIP ViT-L-14 训练的 DataComp-1B 模型卡片

模型详情

模型描述

使用 DataComp-1B 数据集（ https://github.com/mlfoundations/datacomp ）通过 OpenCLIP（ https://github.com/mlfoundations/open_clip ）训练的 CLIP ViT-L/14 模型。

在 stability.ai 集群上进行了模型训练。

用途

根据原始文献 OpenAI CLIP model card ，该模型是为研究社区作为研究产出而设计的。我们希望该模型能帮助研究人员更好地理解和探索零样本、任意图像分类。我们也希望它能用于跨学科研究，以了解这种模型的潜在影响。

OpenAI CLIP 论文提供了一个关于潜在下游影响的讨论，以供分析的例子。另外，DataComp 论文（ https://arxiv.org/abs/2304.14108 ）包含了与训练数据集相关的额外讨论。

直接使用

零样本图像分类、图像和文本检索，等等。

下游应用

图像分类和其他图像任务微调、线性探测图像分类、图像生成引导和条件设置，等等。

不包括在范围内的用途

根据 OpenAI 模型，

当前不涵盖任何已部署的模型用途，无论是商业用途还是非商业用途。除非对模型进行了彻底的领域内测试，并使用了特定的、固定的类别分类法，否则不推荐在受限环境中使用未经测试和不受限制的图像搜索。这是因为我们的安全评估显示，尤其是考虑到 CLIP 在不同类别分类法下的性能变化，需要对特定任务进行具体测试。目前，在任何用例中未经测试和不受限制地部署模型可能会造成潜在危害。

无论模型的性能如何，总是不推荐将其用于监控和面部识别等领域。这是因为当前在此类任务中使用人工智能可能过早，缺乏测试准则和确保其公平使用的检查机制。

训练详情

训练数据

该模型使用了 DataComp-1B 数据集的 14 亿个样本进行训练（ https://arxiv.org/abs/2304.14108 ）。

重要提示：数据集创建的动机是为了使大规模多模态模型训练和处理非策划、大规模从公共可用互联网中爬取的数据集的研究和实验民主化。因此，我们建议将该数据集用于研究目的。请注意，这个大规模数据集没有经过策划。请记住，数据集的非策划性质意味着收集到的链接可能会对人类查看者造成严重不适和困扰。因此，请谨慎使用演示链接，并自行承担风险。可以通过基于安全标签进行样本过滤（使用我们构建的经过自定义训练的 NSFW 分类器），以提取“安全”子集。虽然这在查看时可以大大减少遇到潜在有害内容的机会，但我们无法完全排除安全模式中仍然存在有害内容的可能性，因此警告仍然有效。我们认为，向广泛的研究和其他感兴趣的社区开放我们的数据集，将允许透明地研究训练大规模模型带来的好处，以及在使用局限于小社区的封闭大规模数据集时可能无法报告或忽略的陷阱和风险。但我们不建议将我们的数据集用于创建即用工业产品，因为我们推出此版本的基本研究仍然在进行中，涉及到这些大规模模型的一般属性和安全性。

训练过程

请参阅 https://arxiv.org/abs/2304.14108 。

评估

使用 DataComp repo 和 LAION CLIP Benchmark 对 38 个数据集进行评估。

测试数据、因素和指标

测试数据

测试是在一套包含 38 个数据集的套件上进行的。详细信息请参阅我们的论文（ https://arxiv.org/abs/2304.14108 ）。

结果

该模型在 ImageNet-1k 上实现了 79.2% 的零样本 top-1 准确率。更多详细信息和结果请参阅我们的论文（ https://arxiv.org/abs/2304.14108 ）。

致谢

感谢 stability.ai 提供的计算资源用于训练该模型。

引用

BibTeX:

DataComp

@article{datacomp,
  title={DataComp: In search of the next generation of multimodal datasets},
  author={Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu, Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner, Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh, Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt},
  journal={arXiv preprint arXiv:2304.14108},
  year={2023}
}

OpenAI CLIP 论文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIP 软件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}

如何开始使用模型

请参阅 https://github.com/mlfoundations/open_clip 。

作者:

LAION eV

数据集大小:

3.19 GB