MrD's Blog

我干了什么 究竟拿了时间换了什么

【深度学习】CenterMask : Real-Time Anchor-Free Instance Segmentation

Abstract 这篇文章提出了一种简单而高效的无先验框实例分割,称为CenterMask,它添加了一个新的空间注意力引导掩码(SAG-Mask)分支,以与Mask R-CNN[9]可以相比的无先验框单阶段物体探测器(FCOS [33])。 SAG-Mask 分支插入 FCOS 目标检测器,使用空间注意力图预测每个检测到的边界框上的分割 mask,这有助于关注信息像素并抑制噪声。 作者...

【深度学习】Understanding Diffusion Models: A Unified Perspective

Background:ELBO,VAE,andHierarchicalVAE 对于许多模态,我们可以认为我们观察到的数据是由相关的看不见的隐变量表示或生成的,我们可以用随机变量 $z$ 表示。 Evidence Lower Bound 从数学上讲,我们可以想象通过联合分布建模的隐变量和我们观察到的数据 $p(x, z)$。 基于似然的生成模型是学习一个模型最大化所有观测 $x$ 的似然...

【深度学习】Sovling Inverse Problems in Medical Imaging with Score-Based Generative Models

Abstract 从部分观测重建医学图像是计算机断层扫描(CT)和磁共振成像(MRI)中的一个重要逆问题。 基于机器学习的现有解决方案通常训练一个模型,利用配对图像和观测的训练数据集,将观测结果直接映射到医学图像。 这些观测通常使用观测过程的固定物理模型从图像中合成,这阻碍了模型对未知观测过程的泛化能力。 为了解决这个问题,我们利用最近引入的基于分数的生成模型,提出了一种完全无监督的...

【深度学习】Robust Compressed Sensing MRI with Deep Generative Priors

Abstract CSGM框架(Bora-Jalal-Price-Dimakis’17)表明,深度生成先验可以成为解决逆问题的强大工具。 然而,到目前为止,该框架仅在某些数据集(例如人脸和MNIST数字)上取得了实验成功,众所周知,它在分布外样本上表现不佳。 本文介绍了 CSGM 框架首次成功应用于临床MRI数据。 作者从 fastMRI 数据集中训练了大脑扫描的生成先验,并表明通过...

【深度学习】What are Diffusion Models?

GAN模型因潜在的不稳定训练和由于其对抗性训练性质而产生的较少多样性而闻名。VAE依赖代理损失。Flow 模型必须使用专门的结构来构造可逆变换。 扩散模型的灵感来自于非平衡热力学。他们定义了一个扩散步骤的马尔可夫链,慢慢地向数据添加随机噪声,然后学习反向扩散过程,从噪声中构建所需的数据样本。与 VAE 或 Flow 模型不同,扩散模型的学习过程是固定的,隐变量具有高维数(与原始数据相同)。...

【深度学习】Generative Modeling by Estimating Gradients of the Data Distribution

这篇博客文章关注的是生成建模的一个有前途的新方向。我们可以在大量的噪声扰动数据分布上学习分数函数(对数概率密度函数的梯度),然后用朗之万型采样生成样本。这种生成模型方法通常被称为基于分数的生成模型,与现有模型家族相比具有几个重要的优势:无需对抗性训练的 GAN 级样本质量,灵活的模型架构,精确的对数似然计算,以及无需重新训练模型的逆问题解决。 Introduction 现有的生成建模技术...

【深度学习】Hungarian loss:End-to-end people detection in crowded scenes

Abstract 当前的人类检测器要么以滑动窗口方式扫描图像,要么对一组离散的提议进行分类。 作者提出了一个基于将图像解码为一组人检测的模型。 该系统以图像为输入,并直接输出一组不同的检测假设。 由于一起生成预测,因此不需要常见的后处理步骤,如非极大值抑制。 作者使用循环LSTM层进行序列生成,并使用新的损失函数端到端训练模型,该函数对一组检测进行操作。 作者展示了在人群场景中检...

【深度学习】Plug-and-Play Image Restoration with Deep Denoiser Prior

Abstract 最近关于即插即用图像恢复的工作表明,去噪器可以隐式作为基于模型的方法解决许多逆问题的图像先验。 当通过具有大建模能力的深度卷积神经网络(CNN)判别性地学习去噪时,这种特性为即插即用图像恢复带来了相当大的优势(例如,集成了基于模型方法的灵活性和基于学习的方法的有效性)。 然而,尽管更深、更大型的CNN模型正在迅速普及,但由于缺乏合适的去噪器先验,现有的即插即用图像恢复...

【深度学习】Stable Diffusion:High-Resolution Image Synthesis with Latent Diffusion Models

Abstract 通过将图像形成过程分解为去噪自编码器的顺序应用,扩散模型(DM)在图像数据和其他方面实现了最先进的合成结果。 此外,它们的公式允许用于无需再训练即可控制图像生成过程的引导机制。 然而,由于这些模型通常直接在像素空间中运行,因此强大的DM的优化通常会消耗数百个GPU天,并且由于顺序评估,推理成本很高。 为了在有限的计算资源上进行DM训练,同时保持其质量和灵活性,我们将...

【深度学习】PointPillars: Fast Encoders for Object Detection from Point Clouds

Abstract 点云中的目标检测是自动驾驶等许多机器人应用的一个重要方面。 这篇文章考虑了将点云编码为适合下游检测流程的格式的问题。 最近的文献表明,有两种类型的编码器;固定编码器往往速度快,但牺牲了准确性,而从数据中学习的编码器更准确,但速度更慢。 在这项工作中,作者提出了PointPillars,这是一种新的编码器,它利用 PointNets 来学习以 vertical col...