免责声明: 模型卡片的内容改编自 here 。
更新(10/03/23): 我们已经更新了模型!我们发现 laion/CLIP-ViT-B-32-laion2B-s34B-b79K 检查点(感谢 Bin !)在时尚方面比原始的OpenAI CLIP效果更好。因此,我们在保持架构不变的同时,对FashionCLIP进行了新的(更好!)版本的微调,我们称之为FashionCLIP 2.0。我们假设 laion/CLIP-ViT-B-32-laion2B-s34B-b79K 带来的性能提升是由于训练数据的增加(OpenAI CLIP数据的5倍)。然而,我们的 thesis 保持不变-在我们的时尚数据集上对 laion/CLIP 进行微调改进了我们的基准的零样本性能。请参阅下面的表格,比较各个模型在加权宏F1分数方面的表现。
Model | FMNIST | KAGL | DEEP |
---|---|---|---|
OpenAI CLIP | 0.66 | 0.63 | 0.45 |
FashionCLIP | 0.74 | 0.67 | 0.48 |
Laion CLIP | 0.78 | 0.71 | 0.58 |
FashionCLIP 2.0 | 0.83 | 0.73 | 0.62 |
FashionCLIP是基于CLIP的模型,旨在为时尚概念生成通用产品表示。借助由 OpenAI 发布的预训练检查点(ViT-B/32),我们将FashionCLIP训练在一个大规模、高质量的全新时尚数据集上,以研究领域特定的CLIP-like模型的微调是否足以产生可以零样本转移至全新数据集和任务的产品表示。FashionCLIP并非为模型部署而开发-要做到这一点,研究人员需要首先仔细研究其在特定上下文中的能力。
2023年3月
该模型使用ViT-B/32 Transformer架构作为图像编码器,并使用带有掩码的自注意力Transformer作为文本编码器。这些编码器从预训练检查点开始训练,通过对包含80万个产品的时尚数据集上的(图像,文本)对执行对比损失来最大化它们的相似性。
该模型是训练在从Farfetch数据集[^1 等待官方发布]获取的(图像,文本)对上的。Farfetch是一个包含超过80万个时尚产品的英文数据集,涵盖了数千个品牌和数十种物体类型。用于编码的图像是标准的产品图像,即在白色背景上拍摄的物品图片,没有人物。使用的文本是Farfetch数据集中的亮点(例如“条纹”,“长袖”,“阿玛尼”)和简短描述(“80年代风格的T恤”)的连接。
我们承认FashionCLIP存在一定的限制,并预计它会继承原始CLIP模型中存在的一些限制和偏差。我们不指望我们的微调显著增加这些限制:我们承认我们使用的时尚数据对衣物与特定人群的性别概念存在明确的假设,例如“女士用的蓝鞋子”。
我们的调查还表明,所使用的数据在FashionCLIP中引入了一定的限制。从文本模态来看,由于Farfetch数据集中的大多数标题都比较长,我们观察到FashionCLIP在较长的查询中可能比较高效,在较短的查询中可能不太高效。从图像模态来看,FashionCLIP也对标准产品图像(居中、白色背景)有偏向性。
模型选择,即在微调过程中选择适当的停止标准,仍然是一个开放的挑战。我们观察到,在需要跨不同数据集进行的跨域泛化时,使用在域内(即与测试相同分布)验证数据集上的损失作为选择标准是一个较差的选择,即使所使用的数据集相对多样和大规模。
@Article{Chia2022, title="Contrastive language and vision learning of general fashion concepts", author="Chia, Patrick John and Attanasio, Giuseppe and Bianchi, Federico and Terragni, Silvia and Magalh{\~a}es, Ana Rita and Goncalves, Diogo and Greco, Ciro and Tagliabue, Jacopo", journal="Scientific Reports", year="2022", month="Nov", day="08", volume="12", number="1", abstract="The steady rise of online shopping goes hand in hand with the development of increasingly complex ML and NLP models. While most use cases are cast as specialized supervised learning problems, we argue that practitioners would greatly benefit from general and transferable representations of products. In this work, we build on recent developments in contrastive learning to train FashionCLIP, a CLIP-like model adapted for the fashion industry. We demonstrate the effectiveness of the representations learned by FashionCLIP with extensive tests across a variety of tasks, datasets and generalization probes. We argue that adaptations of large pre-trained models such as CLIP offer new perspectives in terms of scalability and sustainability for certain types of players in the industry. Finally, we detail the costs and environmental impact of training, and release the model weights and code as open source contribution to the community.", issn="2045-2322", doi="10.1038/s41598-022-23052-9", url="https://doi.org/10.1038/s41598-022-23052-9" }