MrD's Blog

我干了什么 究竟拿了时间换了什么

【ICCV 2023】DreamTeacher:Pretraining Image Backbones with Deep Generative Models

Abstract 在这项工作中,我们介绍了一种自监督特征表示学习框架DreamTeacher,该框架利用生成网络对下游图像主干进行预训练。 我们提出从训练有素的生成模型中提取知识,转移到为特定感知任务精心设计的标准图像主干。 我们研究了两种类型的知识蒸馏: 1) 将学习到的生成特征蒸馏到目标图像主干上,作为在大型标记数据集(如ImageNet)上对这些主干进行预训练的替代方案; 2)...

【CVPR 2023】MobileOne: An Improved One millisecond Mobile Backbone

Abstract 面向移动设备的高效神经网络主干通常针对诸如FLOPs或参数数量等指标进行优化。 然而,这些指标可能与移动设备部署时网络的延迟关联不大。 因此,我们通过在移动设备上部署若干适合移动设备的网络,对不同指标进行了广泛分析。 我们识别并分析了近期高效神经网络中的架构和优化瓶颈,并提供了缓解这些瓶颈的方法。 为此,我们设计了一种高效的主干网络MobileOne,其变体在iP...

【TMM 2023】DADF-Net:Degradation-aware Dynamic Fourier-based Network For Spectral Compressive Imaging

Abstract 我们考虑了高光谱图像(HSI)重建问题,旨在从通过编码孔径快照光谱成像(CASSI)系统获得的二维压缩HSI测量中恢复三维高光谱数据。 现有的深度学习方法在HSI重建方面已经取得了可接受的结果。 然而,这些方法没有考虑成像系统的退化模式。 在本文中,基于对通过 shift 和 split measurements 获得的初始化 HSI 的观察,我们提出了一种基于退化...

【ICCV 2023】DAT:Dual Aggregation Transformer for Image Super-Resolution

Abstract 最近,Transformer 在低层视觉任务中获得了显著的流行度,包括图像超分辨率(SR)方面。 这些网络利用自注意力机制(self-attention)沿不同维度,空间或通道,取得了令人印象深刻的表现。 这激发了我们结合 Transformer 中的两个维度,以获得更强大的表征能力的想法。 基于上述思路,我们提出了一种新型 Transformer 模型,Dual ...

【NIPS 2022】CAT:Cross Aggregation Transformer for Image Restoration

Abstract 最近, Transformer 架构已被引入图像恢复领域,用以替代卷积神经网络(CNN),并取得了惊人的成果。 考虑到具有全局注意力的 Transformer 的高计算复杂性,一些方法采用局部正方形窗口来限制自注意力的范围。然而,这些方法缺乏不同窗口间的直接交互,这限制了长距离依赖关系的建立。 为了解决上述问题,我们提出了一种新的图像恢复模型,Cross Aggreg...

【ICML 2022】RETRO:Improving language models by retrieving from trillions of tokens

Abstract 我们通过对从大型语料库中检索的文档块进行条件化处理,来增强自回归语言模型,这一处理基于与 preceding tokens 的局部相似性。 拥有2万亿 token 数据库的我们的 Retrieval-Enhanced Transformer Transformer(RETRO)在 Pile 上获得了与 GPT-3 和 Jurassic-1 相当的表现,尽管使用的参数数...

【arXiv 2023】SINR:Spectral-wise Implicit Neural Representation for Hyperspectral Image Reconstruction

Abstract 编码孔径快照光谱成像(Coded Aperture Snapshot Spectral Imaging, CASSI)重建旨在从二维测量数据中恢复三维空间光谱信号。 现有的高光谱图像(Hyperspectral Image, HSI)重建方法通常涉及从二维压缩图像到预设的离散光谱带集合的学习映射。 然而,这种方法忽略了光谱信息固有的连续性。 在本研究中,我们提出了一...

【arXiv 2023】RCG:Self-conditioned Image Generation via Generating Representations

Abstract 本文介绍了表示条件图像生成(RCG),这是一个简单而有效的图像生成框架,为类别非条件图像生成设定了新的基准。 RCG不依赖任何人类标注,而是基于自监督表示分布进行条件设定,该分布通过预训练的编码器从图像分布映射得到。 在生成过程中,RCG使用表示扩散模型(RDM)从这种表示分布中采样,并采用像素生成器根据采样的表示来精制图像像素。 这样的设计在生成过程中提供了实质性...

【ICML 2020】REALM: Retrieval-Augmented Language Model Pre-Training

Abstract 语言模型的预训练已被证明能够捕获大量对自然语言处理(NLP)任务至关重要的世界知识,例如问答。 然而,这些知识被隐含地存储在神经网络的参数中,需要更大的网络来覆盖更多事实。 为了以更模块化和可解释的方式捕获知识,我们通过一个潜在知识检索器来增强语言模型的预训练,该检索器允许模型从如维基百科这样的大型语料库中检索并关注文档,这在预训练、微调和推理过程中都会用到。 我们...

【JSTSP 2021】MoG-DUN:Accurate and Lightweight Image Super-Resolution With Model-Guided Deep Unfolding Network

Abstract 基于深度神经网络(DNNs)的方法在单图像超分辨率(SISR)方面取得了巨大成功。然而,现有的最先进的SISR技术设计得像黑盒子一样,缺乏透明度和可解释性。此外,视觉质量的提高往往是以增加模型复杂性为代价,由于黑盒设计。在本文中,我们提出并倡导一种名为模型引导的深度展开网络(MoG-DUN)的可解释方法,用于SISR。为了打破一致性障碍,我们选择与一个被广泛认可的图像先验...