模型:
microsoft/xclip-base-patch32
X-CLIP模型(base-sized,32个片段分辨率)在 Kinetics-400 上进行完全监督训练。该模型是由Ni等人在 Expanding Language-Image Pretrained Models for General Video Recognition 论文中提出,并在 this repository 中首次发布。
该模型使用每个视频的8帧,分辨率为224x224进行训练。
声明:发布X-CLIP的团队未为此模型编写模型卡,因此这个模型卡是由Hugging Face团队编写的。
X-CLIP是对 CLIP 进行通用视频-语言理解的简单扩展。该模型以对比方式在(视频,文本)对上进行训练。
这使得该模型可以用于零-shot、少-shot或完全监督的视频分类和视频-文本检索等任务。
可以使用原始模型来确定文本与给定视频的匹配程度。查看 model hub 以寻找在您感兴趣的任务上进行精调的版本。
有关示例代码,请参见 documentation 。
该模型是在 Kinetics-400 上进行训练的。
有关训练期间预处理的详细信息,请参见 here 。
有关验证期间预处理的详细信息,请参见 here 。
在验证期间,将每个帧的较短边调整大小,然后执行中心裁剪到固定分辨率(如224x224)。接下来,对RGB通道进行ImageNet均值和标准差的归一化处理。
该模型的Top-1准确率达到80.4%,Top-5准确率达到95.0%。