认识Seal:基于2D视觉模型的大规模3D点云自监督学习框架
2023年06月21日 由 Camellia 发表
328688
0
Seal是一种利用2D视觉基础模型在大规模3D点云上进行自监督学习,追求“分割任何点云序列”的人工智能框架。
大型语言模型(LLM)席卷了人工智能界。它们最近的影响和惊人的性能显示为医疗保健、金融、娱乐等各行各业做出了巨大贡献。像GPT-3.5、GPT 4、DALLE 2和BERT这样的众所周知的LLM,也被称为基础模型,通过生成独特的自然语言提示内容,执行非凡的任务,简化我们的生活。
最近的视觉基础模型(VFM)如SAM、X-Decoder和SEEM在计算机视觉领域取得了许多进展。虽然VFM在2D感知任务上取得了巨大进步,但3D VFM研究仍需要改进。研究人员建议扩展当前的2D VFM以应对3D感知任务。关键的3D感知任务之一是通过LiDAR传感器捕获的点云的分割,这对于自动驾驶车辆的安全运行至关重要。
现有的点云分割技术主要依赖于经过标注的大规模数据集进行训练;然而,点云的标注非常耗时且困难。为了克服所有的挑战,一个研究团队引入了Seal,这是一个使用视觉基础模型来进行分割各种汽车点云序列的框架。受跨模式表征学习的启发,Seal从VFM中收集语义丰富的知识,以支持对汽车点云的自监督表征学习。其主要思想是利用LiDAR和相机传感器之间的2D-3D关系,为跨模式表征学习开发高质量的对比性样本。
Seal具备三个关键特性:可扩展性、一致性和通用性。
可扩展性:Seal利用VFM,仅将其转换为点云,无需在预训练阶段进行2D或3D注释。由于其可扩展性,Seal能够处理大量数据,甚至有助于消除人工注释所需的耗时过程。
一致性:该架构在相机到LiDAR和点到分割两个阶段强制执行空间和时间上的链接。Seal通过捕捉视觉(相机和LiDAR传感器之间的跨模态交互)来实现高效的交叉模态表示学习,确保学习表示融合了来自两种模态的相关和连贯的数据。
通用性:Seal能够将知识传递到涉及各种点云数据集的下游应用中。它可以推广和处理具有不同分辨率、大小、清洁程度、污染程度、实际数据和人工数据的数据集。
该研究团队提到的一些关键贡献包括:
1.提出的Seal框架是一个可扩展、可靠且具有通用性的框架,用于捕获具有语义感知的空间和时间一致性。
2.它允许从汽车点云序列中提取有用的特征。
3.该研究宣称,这是第一个在大规模3D点云上使用2D视觉基础模型进行自监督表征学习的研究。
4.在不同数据配置的11个不同点云数据集上,Seal在线性探测和下游应用的微调方面的表现均优于先前的方法。
为了评估Seal的性能,该团队在十一个不同的点云数据集上进行了测试。结果显示,Seal的性能优于现有方法。
在nuScenes数据集上,Seal在线性探测后取得了令人瞩目的平均交并比(mIoU)达到45.0%。这一性能相较于随机初始化提高了36.9%的mIoU,并且优于先前的SOTA方法6.1%的mIoU。Seal还在所有11个测试点云数据集的20个不同的少量微调任务中展示了显着的性能提升。
来源:https://www.marktechpost.com/2023/06/20/meet-seal-an-ai-framework-that-pursues-segment-any-point-cloud-sequences-by-leveraging-2d-vision-foundation-models-for-self-supervised-learning-on-large-scale-3d-point-clouds/