【深度学习】Video object detection from one single image through opto-electronic neural network

Posted by ShawnD on December 6, 2022

Abstract

这篇文章设计了一个 opto-electronic 神经网络,用于从长时间曝光的模糊图像中检测视频对象。

该网络结合了光学编码器、卷积神经网络解码器和目标检测模块,这些模块是端到端共同优化的。

通过反向传播,根据硬件的物理约束,采用联合损失来更新网络。

使用高速刷新空间光调制器作为网络的编码器部分,以生成编码的子图像,然后在普通相机之后获得单个模糊图像。

网络的其余部分用于视频目标检测。

模拟和实验都表明,该框架可以在长时间曝光的不同时刻成功检索目标标签和边界框。

据作者所知,这是研究单个运动退化图像中视频目标检测的第一项工作。

Introduction

随着深度学习的蓬勃发展,一些计算机视觉任务备受关注,这些任务教会了机器感知物理世界。 作为计算机视觉的基本任务之一,目标检测构成了许多其他任务的基础,例如实例分割、目标跟踪、和图像字幕。目标检测的目标是检测图像中特定类别的语义对象(如猫、飞机或汽车)的实例,并返回所有目标实例的空间位置和区域。目标检测现已广泛应用于广泛的应用,包括自动驾驶、机器人视觉和视频监控。这些应用需要高质量的图像作为输入,以提取精确的目标特征。在真实场景中,曝光期间运动造成的模糊导致捕获的图像质量严重下降。之前的研究表明,用于视觉任务的标准网络模型在应用于因模糊而退化的图像时,性能会严重下降。由于图像需要足够的曝光来积累来自场景的光线,因此减少曝光时间以避免运动模糊是不可取的。虽然高功率照明和高速相机的组合是有用的,但在实践中使用这些专用设备是困难的,也是昂贵的。将运动模糊视为噪声,执行去模糊是经典的软件解决方案。然而,所有现有方法都仅限于仅生成“一个”去模糊图像的任务,这会丢失有关模糊图像中物体运动的信息。运动信息对于理解场景的动态至关重要,特别是在上述应用中。运动模糊结合了有关物体纹理和运动的信息,这些信息可用于运动过程中的视频目标检测(VID)。

这篇文章报告了一种用于从 single coded image(VODS)检测视频目标的光学和数字共同设计架构。更具体地说,为这项任务构建了一种新型的 opto-electronic 混合神经网络,该网络级联了光学编码器、卷积神经网络(CNN)解码器和视频目标检测模块,以实现端到端优化。在推理过程中,场景的视频信号通过高速空间光调制器(SLM)逐帧调制,以执行训练好的编码器模块,并最终由图像传感器捕获,该图像在长曝光模式下工作,以生成编码的模糊图像。编码的模糊图像被视为包含运动信息的特征图,这有助于后续的目标检测。然后,通过使用网络的其余部分处理“模糊”图像,可以在曝光时间的不同时刻检索运动对象的标签和边界框。 作者对标准数据集和真实实验进行了模拟,以演示VODS。将该方法与作为下界的长曝光模糊图像和以理想高速相机图像为上限的视频目标检测进行比较。实验结果表明,该方法比未编码的模糊图像具有更好的检测精度,并显示了昂贵的高速相机图像的竞争准确性,尽管后者包含的数据大小比VODS大得多。VODS不仅可以检测模糊图像中的语义目标,还可以在光子学中具有潜在的应用,例如空间模式识别、光通信、和基于OAM模式的量子密码学。