DINOv2:Meta AI 的自监督计算机视觉模型

2023年05月25日 由 Susan 发表 196704 0
Meta AI刚刚发布了开源的DINOv2模型,这是第一种使用自我监督学习来训练计算机视觉模型的方法。DINOv2模型取得了与标准方法和该领域中的模型相匹配或甚至更好的结果。

这些模型在不需要微调的情况下实现了强大的性能,这使得它成为许多不同计算机视觉任务和应用程序的完美选择。DINOv2可以从各种图像和特征集合中学习,例如:深度估计,且不需要显式训练,这得益于自监督训练方法。

1. 自我惊讶学习的必要性

1.1. 无需微调

自我监督学习是一种强大的方法,用于训练机器学习模型,而无需大量标记数据。DINOv2模型可以在图像语料库中进行训练,而不需要相关元数据、特定的标签或图像说明。与几种最近的自我监督学习方法不同,DINOv2模型不需要微调,因此可以为不同的计算机视觉应用程序生成高性能特征。

1.2. 克服人工注释限制

在过去几年中,图像-文本超前训练已成为各种计算机视觉应用的主要方法。然而,由于它依赖于人标注的标题来学习图像的语义含义,这种方法经常忽略了那些说明中未明确包含的重要信息。例如,一张红色桌子在黄色房间里的照片的人标签标题可能是“一张红色木桌子”。这个标题将错过关于背景、位置和桌子大小的一些重要信息。这会导致对局部信息的理解缺乏,在需要详细本地化信息的任务中表现不佳。

此外,人工标签和注释的需求将限制我们收集用于训练模型的数据量。对于某些应用而言,如注释细胞,需要一定程度的人类专业知识,而此类专业知识所需的规模往往是不可达到的。在细胞图像上使用自我监督训练方法为建立更基础的模型打开了途径,并因此有助于提高生物学的发现能力。与此类似的高级领域,如动物密度估计,也同样适用。






从DINO转变为DINOv2需要克服一些挑战,例如:

  • 创建一个大型和经过筛选的训练数据集

  • 改进训练算法和实现

  • 设计一个功能性的蒸馏流程。









2. 从恐龙到恐龙v2



2.1. 创建一个大型、精心策划且多样化的图像数据集

构建DINOv2的主要步骤之一是训练更大的架构和模型以增强模型的性能。然而,更大的模型需要大型数据集才能进行有效的训练。由于没有满足要求的大型数据集可用,研究人员利用公开抓取的网络数据,并构建了一个类似于LASER的流程,选择仅有用的数据。

但是,为了能够使用这些数据集,需要完成两个主要任务:

  • 平衡不同概念和任务之间的数据

  • 删除不相关的图像。


 

由于这项任务可以通过手动完成,因此他们从大约25个第三方数据集中筛选了一组种子图像,并通过获取与这些种子图像密切相关的图像来扩展它。这种方法使他们能够从12亿张图像中产生一个包含1420万张图像的相关数据集。

2.2. 算法和技术改进

虽然使用更大的模型和数据集将带来更好的结果,但也伴随着挑战。其中两个主要挑战是潜在的不稳定性和在训练期间保持可追踪性。为了使训练更加稳定,DINOv2包括了受相似性搜索和分类文献启发的额外正则化方法。

DINOv2的训练过程整合了最新的混合精度和分布式训练实现,这是由先进的PyTorch 2提供的。这使得代码的实现更快,并且在使用相同硬件训练DINO模型时,速度翻了一倍,内存使用量减少了三分之一,从而允许在数据和模型尺寸上进行扩展。

2.3. 使用模型蒸馏减少推理时间

在推断过程中运行大型模型需要强大的硬件,这将限制该方法在不同用例中的实际应用。为了解决这个问题,研究人员使用了模型蒸馏技术,将大型模型的知识压缩到较小的模型中。通过利用这种方法,研究人员能够将高性能架构压缩为性能成本微不足道的较小架构。这导致出现了强大的ViT-Small、ViT-Base和ViT-Large模型。

总之,Meta AI发布DINOv2模型标志着一个重要的里程碑。DINOv2模型使用的自监督学习方法为机器学习模型的训练提供了一种强大的方式,无需大量标记数据。这些模型能够在不需进行微调的情况下获得高精度,适用于各种计算机视觉任务和应用。此外,DINOv2可以从不同的图像集合中学习,并能够从深度估计等特征中学习,无需显式训练。DINOv2作为开源模型的可用性为研究人员和开发人员在计算机视觉任务和应用中探索新的可能性打开了大门。

来源:https://www.kdnuggets.com/2023/05/dinov2-selfsupervised-computer-vision-models-meta-ai.html

欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消