模型:
laion/CLIP-ViT-B-32-xlm-roberta-base-laion5B-s13B-b90k
使用 LAION-5B 数据集和 OpenCLIP 训练的 CLIP ViT-B/32 xlm roberta base 模型。
模型训练由 Romain Beaumont 在 stability.ai 集群上完成。
零样本图像分类、图像和文本检索等。
图像分类和其他图像任务微调、线性探测图像分类、图像生成引导和调整等。
该模型使用完整的 LAION-5B 数据集进行训练。
使用训练数据的13B样本进行批量大小为90k的训练,详见 https://wandb.ai/rom1504/open-clip/reports/xlm-roberta-base-B-32--VmlldzoyOTQ5OTE2 。
模型在视觉方面为 B/32,文本方面使用预训练权重初始化的 xlm roberta base 模型。
评估是使用 LAION CLIP Benchmark suite 中的代码进行的。
使用VTAB+(VTAB与额外的鲁棒性数据集的组合)进行分类,并使用COCO和Flickr进行检索。
该模型达到以下结果:
进行了初步的多语言评估:意大利的 imagenet1k 为 43%(与英文 B/32 的 21% 相比),日本的 imagenet1k 为 37%(与英文 B/32 的 1% 相比,与 B/16 clip 日语 的 50% 相比)。它显示了多语言特性确实存在,如预期那样。更大的模型将获得更好的性能。
感谢 stability.ai 提供用于训练该模型的计算资源。
BibTeX:
除了即将发表的 LAION-5B 论文( https://laion.ai/blog/laion-5b/ )之外,请引用:
OpenAI CLIP 论文
@inproceedings{Radford2021LearningTV, title={Learning Transferable Visual Models From Natural Language Supervision}, author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever}, booktitle={ICML}, year={2021} }
OpenCLIP 软件
@software{ilharco_gabriel_2021_5143773, author = {Ilharco, Gabriel and Wortsman, Mitchell and Wightman, Ross and Gordon, Cade and Carlini, Nicholas and Taori, Rohan and Dave, Achal and Shankar, Vaishaal and Namkoong, Hongseok and Miller, John and Hajishirzi, Hannaneh and Farhadi, Ali and Schmidt, Ludwig}, title = {OpenCLIP}, month = jul, year = 2021, note = {If you use this software, please cite it as below.}, publisher = {Zenodo}, version = {0.1}, doi = {10.5281/zenodo.5143773}, url = {https://doi.org/10.5281/zenodo.5143773} }