NVIDIA通过Kaolin PyTorch库简化3D深度学习研究

2019年12月02日由 KING 发表 903094 0

3D计算机视觉和AI的研究工作像两个并排的摩天大楼一样飞速发展。但是，它们之间的距离至今难以跨越。为了弥补这种鸿沟，NVIDIA今天发布了Kaolin，只需几步，就可以将3D模型移入神经网络领域。 Kaolin可以简化为深度学习准备3D模型的工作，从300行代码减少到只有5行。

3D模型领域正在蓬勃发展，Kaolin可以产生重大影响。在线存储库已经拥有许多3D数据集，这在一定程度上要归功于大约3千万个可捕捉3D图像的深度相机，并且现在在全球范围内，从实验室到客厅都在使用。复杂的3D数据集可以加载到机器学习框架中，无论它们如何表示或呈现。这样的工具可以使机器人，自动驾驶汽车，医学成像和虚拟现实等领域的研究人员受益。迄今为止，研究人员缺乏使这些模型可以与深度学习工具一起使用的良好工具，相反，他们被迫花费大量时间从头开始编写代码。

对于更广泛的受众而言，Kaolin是一个支持各种有趣的3D应用程序的软件库。想象一下它可以将您的图片拍成3D模型，然后分享出去。

加速研究的界面

Kaolin的核心是一组有效的几何函数，这些函数可以操纵3D内容。它可以包装为PyTorch张量3D数据集，实现为多边形网格，点云，有符号距离函数或体素网格。

研究人员可以将其3D数据集准备好进行深度学习，然后从Kaolin提供的备选方案中选择一个神经网络模型。该界面提供了丰富的模型存储库，包括模型和基础模型，可用于分类、分割、3D重建、超分辨率等。

实际应用程序的一些示例

3D零件分割可自动识别3D模型的不同部分，从而轻松为动画装配角色或自定义模型以生成对象的变体。

它根据受过训练的神经网络识别的产品图像来构建3D模型。反过来，可以使用3D模型搜索最适合的3D模型数据库。除了源代码，我们还将在流行的基准上发布针对这些任务的预训练模型。我们希望它们可以作为将来研究的基准，从而简化模型比较的工作。

Kaolin的模块化方法使用户轻松进行可区分的渲染，这是3D深度学习中的一项热门新技术。用户可以简单地修改接口耗材的组件，而不必从头开始编写整个渲染器。

将AI与3D结合起来

NVIDIA的研究人员表示：“我们在NVIDIA进行了大量的3D相关研究。有时，我们有时会花几天时间浏览其他人编写的开源代码，以找出最佳方法，然后将其全部放入一个库中供内部使用。在为我们的几个项目编写样板代码之后，我们的一位实习生建议我们为PyTorch创建更全面的工具。一段时间以来，研究人员已经拥有了用于2D图像的实用程序。一种适用于3D的技术可以扩大社区范围。我们希望它可以帮助许多当前和新的3D研究人员使用AI创造惊人的事物。

标签：

行业深度学习

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇阿里云在GitHub上发布机器学习算法

下一篇如何解锁人工智能时代

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）