MIT利用深度学习技术，识别在黑暗中拍摄的照片里的物体

2018年12月13日由浅浅发表 328142 0

即使在光线良好的情况下，酒杯的小瑕疵或隐形眼镜中的微小褶皱也很难找出。而在几乎完全黑暗的情况下，这种透明特征或物体的缺陷几乎不可能被发现。为了解决这个问题，麻省理工学院的工程师开发出一种能够在黑暗中揭示这些难以发现的细节的技术。

论文发表在“Physical Review Letters”上，研究人员从这些物体的图像重建透明物体，前提是这些物体几乎是在黑暗中拍摄的。他们使用深度神经网络来实现这一目标，将黑暗的颗粒状的透明物体图像和物体本身关联。

团队训练了一台计算机，让它根据带有大量颗粒的图像，识别10000多个透明玻璃状蚀刻物。这些图像是在非常差的光照条件下拍摄的，每个像素大约有一个光子，远远少于相机在黑暗密封房间中拍摄的图像。然后，向计算机显示了一个新的颗粒状图像，并未包含在训练数据中，然后团队发现它学会了重建被黑暗笼罩的透明物体。

结果表明，深度神经网络可以在光线不足的图像中，突出透明特征，例如生物组织和细胞。

深度学习

深度神经网络已广泛应用于计算机视觉和图像识别领域，麻省理工学院机械工程教授George Barbastathis的团队是第一个在实验中使用深度神经网络揭示黑暗中不可见物体的。

Barbastathis表示，“不可见的物体可以用不同的方式显示出来，但通常需要你使用充足的光线，我们现在正在做的是在黑暗中想象看不见的物体，所以这就像两个困难相结合。”

光的定律

该团队查阅了包含10000个集成电路（IC）的数据库，每个集成电路都采用不同复杂的水平和垂直条纹蚀刻。“当我们用肉眼观察时，我们看不到太多，它们看起来都像一块透明的玻璃，但实际上很细很浅的结构仍然对光线有影响。”

研究人员使用了相位空间光调制器（phase space light modulator），这是一种将图案显示在单个玻璃幻灯片上的仪器，与实际的蚀刻幻灯片具有相同的光学效果。

研究人员建立了一个实验，他们将相机对准含有光调制器的小型铝框架。然后，他们使用该设备从数据库中重现10000个IC模式中的每一个。研究人员使整个实验避光，然后使用光调制器快速旋转每个模式，类似于幻灯片旋转木马。他们在几乎完全黑暗的环境中拍摄每个透明图案。

该团队开发了一个深度神经网络，用于识别暗图像中的透明图案，然后向网络提供相机拍摄的10000张颗粒状照片，以及相应的图案，或者名之为“地面实况”的图像。当训练计算机后，你会希望给它会辨别出全新的输入。

研究人员将他们的相机设置为略微偏离焦点。虽然看似违反直觉，但实际上这可以使透明对象成为焦点。或者更准确地说，散焦提供了一些证据，以检测到的光中的波纹形式，可以存在透明物体。这种波纹是一种视觉信号，神经网络可以将其作为图像纹理中某个物体存在的第一个信号来检测。

但是散焦也会产生模糊，这会使神经网络的计算变得混乱。为了解决这个问题，研究人员在神经网络中加入了物理定律，描述了光的行为，以及当相机散焦时它如何产生模糊效果。

团队表示，“我们所知道的是样本和相机之间光传播的物理定律，最好将这些知识包含在模型中，因此神经网络就不会浪费时间学习我们已经知道的东西。”

更清晰的图像

在对10000个不同IC模式图像的神经网络进行训练后，该团队创建了一个全新的模式，不包括在原始训练集之中。当再次在黑暗中拍摄图案并将该图像输入神经网络时，他们比较了神经网络重建的模式，无论是否存在嵌入网络的物理定律。

他们发现两种方法都能很好地重建原始透明图案，但嵌入物理知识的重建产生了更清晰，更准确的图像。更重要的是，这个重建的图案，来自在接近完全黑暗中拍摄的图像，比同一图案的物理知识重建更加清晰，在光线下拍摄的图像亮度超过1000倍。

该团队使用一个全新的数据集重复了实验，该数据集由超过10000个更普通更多样的物体的图像组成，包括人物，地点和动物。他们再次发现，与没有嵌入物理定律的复制品相比，基于物理原理的重建能产生更精确的原始图像。

Barbastathis表示：“在实验室里，如果用光线照射生物细胞，它们就会被破坏，而且没有什么能留下来。当涉及X光时，如果你将患者暴露于X光，则会增加他们患癌症的风险。我们对此研究的想法是，可以获得相同的图像质量，但患者的暴露程度较低。在生物学方面，当你想要对它们进行采样时，你可以减少对生物标本的伤害。”

标签：

视觉识别 MIT麻省理工学院深度神经网络

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇沃尔沃和Luminar为自动驾驶汽车打造激光雷达，可识别行人动作

下一篇人工智能系统可以调整图像的对比度、大小和形状

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）