MrD's Blog

我干了什么 究竟拿了时间换了什么

【深度学习】SECOND: Sparsely Embedded Convolutional Detection

Abstract 基于激光雷达或基于RGB-D的目标检测用于许多应用,从自动驾驶到机器人视觉。 基于Voxel的3D卷积网络已经使用了一段时间,以提高处理点云激光雷达数据时的信息保留率。 然而,问题仍然存在,包括推理速度缓慢和方向估计性能低。 因此,作者研究了一种改进的此类网络稀疏卷积方法,该方法显著提高了训练和推理的速度。 作者还引入了一种新形式的角度损失回归,以提高定向估计性能...

【深度学习】Score-baed Diffusion:Score-Based Generative Moddling Through Stochastic Differential Equations

Abstract 从数据中创建噪声很容易;从噪声中创建数据是生成建模。 这篇文章提出了一个随机微分方程(SDE),通过缓慢注入噪声将复合数据分布平稳转换为已知的先验分布,以及相应的反向时间SDE,通过缓慢消除噪声将先验分布转换回数据分布。 至关重要的是,反向时间 SDE 仅取决于扰动数据分布的时间依赖梯度场(又名分数)。 通过利用基于分数的生成建模的进步,可以使用神经网络准确估计这些...

【深度学习】VoxelNet:End-to-End Learning for Point Cloud Based 3D Object Detection

Abstract 准确检测3D点云中的物体是许多应用的核心问题,例如自主导航、家政机器人和增强/虚拟现实。 为了将高度稀疏的激光雷达点云与区域提议网络(RPN)连接起来,大多数现有工作都集中在手工制作的特征表示上,例如,鸟瞰投影。 在这项工作中,作者消除了3D点云手动特征工程的需要,并提出了VoxelNet,这是一个通用的3D检测网络,将特征提取和边界框预测统一到单阶段的端到端可训练深...

【深度学习】Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite

Abstract 今天,视觉识别系统在机器人应用中仍然很少使用。 也许其中一个主要原因是缺乏模仿此类场景的基准。 这篇文章利用自动驾驶平台,为stereo、光流、visual odometry /SLAM和3D目标检测等任务开发了具有挑战性的新基准。 记录平台配备了四台高分辨率摄像机、一台 Velodyne 激光扫描仪和最先进的定位系统。 我们的基准包括389个 stereo 和光...

【深度学习】DAIR-V2X Project

Exact version of environment configuratioin 1 2 3 4 5 6 7 cuda == 11.1 mmdet3d == 0.17.1 torch == 1.9.0 mmcv-full == 1.3.14 mmdet == 2.14.0 mmpycocotools == 12.0.3 mmsegmentation == 0.14.1 1 pip...

【深度学习】Deblurring via Stochastic Refinement

Abstract 图像去模糊是一个病态问题,对给定的输入图像有多个合理的解。 然而,大多数现有方法都会对干净的图像进行确定性估计,并经过训练,以尽量减少像素级失真。 众所周知,这些指标与人类感知关系不佳,并经常导致不真实的重建。 这篇文章提出了一种基于条件扩散模型的盲去模糊替代框架。 与现有技术不同,作者训练了一个随机采样器,该采样器可以细化确定性预测器的输出,并能够为给定的输入生成...

【深度学习】DDRM:Denoising Diffusion Restoration Models

Abstract 图像恢复中的许多有趣的任务可以转换为线性逆问题。 最近一系列解决这些问题的方法使用随机算法,根据观测结果从自然图像的后验部分布进行采样。 然而,有效的解决方案通常需要特定问题的监督训练来模拟后验,而非特定问题的无监督方法通常依赖于低效的迭代方法。 这项工作通过引入去噪扩散恢复模型(DDRM)来解决这些问题,DDRM是一种高效的、无监督的后验采样方法。 受启发于变分...

【深度学习】OFA:Unifying Architectures, Tasks, and Modalities through a Simple Sequence-to-Sequence Learning Framework

Abstract 在这项工作中,作者追求多模态预训练的统一范式,以打破复杂任务/特定于模态的定制的框架。 作者提出OFA,一种统一的多模态预训练模型,将模态(即跨模式、视觉、语言)和任务(例如图像生成、视觉接地、图像字幕、图像分类、文本生成等)统一到基于编码器解码器架构的简单序列到序列学习框架中。 OFA使用任务指令进行预训练和微调,并且没有引入额外的特定于任务的层进行微调。 实验结...

【深度学习】Video object detection from one single image through opto-electronic neural network

Abstract 这篇文章设计了一个 opto-electronic 神经网络,用于从长时间曝光的模糊图像中检测视频对象。 该网络结合了光学编码器、卷积神经网络解码器和目标检测模块,这些模块是端到端共同优化的。 通过反向传播,根据硬件的物理约束,采用联合损失来更新网络。 使用高速刷新空间光调制器作为网络的编码器部分,以生成编码的子图像,然后在普通相机之后获得单个模糊图像。 网络的其...

【深度学习】Real-Time Object Detection and Localization in Cimpressive Sensed Video

Abstract 通常,一个1200万像素的CCTV每天生成约7-12GB的数据。 对如此庞大的数据进行逐帧处理需要大量的计算资源。 近年来,压缩感知方法通过减少采样带宽,取得了令人印象深刻的压缩效果。 开发了不同的采样机制,将压缩感知纳入图像和视频采集中。 虽然执行压缩感知的 all-CMOS 传感器相机可以帮助节省大量采样带宽,并最大限度地减少存储视频所需的内存,但传统的信号处...