MrD's Blog

我干了什么 究竟拿了时间换了什么

【ICCV 2023】DCD-Net:Iterative Denoiser and Noise Estimator for Self-Supervised Image Denoising

Abstract 随着强大的深度学习工具的出现,越来越多有效的深度去噪器推动了图像去噪领域的发展。 然而,这些基于学习的方法取得的巨大进步严重依赖于大规模且高质量的噪声/干净训练对,这限制了它们在现实世界场景中的实用性。 为了克服这一点,研究人员一直在探索无需配对数据即可去噪的自监督方法。 然而,缺乏可用的噪声先验和效率低下的特征提取使这些方法的实用性和精度受到影响。 在本文中,我...

【ICCV 2023】SRFormer: Permuted Self-Attention for Single Image Super-Resolution

Abstract 先前的研究表明,增大基于 Transformer 的图像超分辨率模型(例如SwinIR)的窗口大小可以显著提高模型性能,但是计算开销也相当可观。 在本文中,我们提出了一种简单但新的方法SRFormer,该方法可以享受大窗口自注意力的好处,同时引入的计算负担甚至更少。 我们SRFormer的核心是 permuted self-attention(PSA),它在通道和空间...

【深度学习】LangChain

Get Started Introduction LangChain是一个用于由语言模型驱动的应用程序的框架。它使应用程序能够: 具有上下文意识:将语言模型与上下文源(提示指令,少量示例,基于其响应的内容等)联系起来。 推理:依靠语言模型进行推理(关于如何根据提供的上下文进行回答,采取什么行动等)。 该框架由几个部分组成。 LangChain Libraries:...

【ICCV 2023】VQD-SR:Learning Data-Driven Vector-Quantized Degradation Model for Animation Video Super-Resolution

Abstract 现有的现实世界视频超分辨率(VSR)方法专注于为开放域视频设计一个通用的退化流程,却忽略了数据固有特性,这些特性在应用于某些特定领域(例如,动画视频)时极大地限制了它们的性能。 在本文中,我们彻底探讨了动画视频的特点,并利用现实世界动画数据中丰富的先验知识来打造一个更实用的动画视频超分辨率模型。 特别是,我们提出了一个用于动画视频超分辨率的多尺度向量量化退化模型(VQ...

【ICCV 2023】SPIN:Lightweight Image Super-Resolution with Superpixel Token Interaction

Abstract 基于 Transformer 的方法在单图像超分辨率(SISR)任务上展示了令人印象深刻的结果。 然而,当应用于整个图像时,自注意力机制在计算上是十分昂贵的。 因此,现有的方法将低分辨率输入图像划分为小块,这些小块被单独处理然后融合以生成高分辨率图像。 尽管如此,这种传统的规则块划分过于粗糙且缺乏可解释性,导致在注意力操作过程中出现伪影和非相似结构干扰。 为了解决...

【ICCV 2023】CTM-SCI:Unfolding Framework with Prior of Convolution-Transformer Mixture and Uncertainty Estimation for Video Snapshot Compressive Imaging

Abstract 我们考虑了视频快照压缩成像(SCI)的问题,其中连续的高速帧被不同的编码模板调制,并通过单一测量捕获。从单一测量中重建多帧图像的基本原理是解决一个病态问题。通过结合优化算法和神经网络,深度展开网络(DUNs)在解决逆问题方面取得了巨大成就。在本文中,我们提出的模型基于DUN框架下,并且我们提出了一个带有插入的3D高效且可伸缩的注意力模型的 3D Convolution-T...

【ICCV 2023】The Devil is in the Upsampling:Architectural Decisions Made Simpler for Denoising with Deep Image Prior

Abstract Deep Image Prior(DIP)表明,一些网络架构本质上倾向于在抵抗噪声的同时生成平滑图像,这种现象被称为 Spectrl Bias。 图像去噪是该属性的自然应用。虽然使用DIP消除了对大型训练集的需求,但需要克服两个通常相互交织的实际挑战:结构设计和噪声拟合。 由于对结构选择如何影响去噪结果的理解有限,现有的方法要么手工制作,要么从广阔的设计空间寻找合适的...

【TPAMI 2023】What Makes for Good Tokenizers in Vision Transformer?

Abstract Transformer 架构最近在视觉任务中迎来了迅猛的应用,与普遍的卷积范式形成了对立。 依靠将输入分割成多个 token 的 tokenization 过程, Transformer 能够利用自注意力机制提取他们之间的成对关系。 虽然它是 Transformer 的基础构造块,但在计算机视觉中,一个好的 Tokenizer 到底是什么还没有被充分理解。 在这项工作...

【CVPRW 2023】Quadformer:Vision Transformers with Mixed-Resolution Tokenization

Abstract 视觉 Transforemr 模型通过将输入图像分割成一个空间规则的等大小补丁网格来处理图像。 相反, Transformer 最初是为自然语言序列引入的,在那里每个标记代表一个子词——一个任意大小的原始数据块。 在这项工作中,我们将这种方法应用到视觉 Transformer 中,通过引入一种新的图像 Tokenizer 方案,用混合分辨率的 token 序列替换标准...

【CVPR 2023】SRNO:Super-Resolution Neural Operator

Abstract 我们提出了超分辨率神经算子(SRNO),这是一个深度算子学习框架,能够从低分辨率(LR)图像中解析出任意比例的高分辨率(HR)图像。将LR-HR图像对视为以不同网格大小近似的连续函数,SRNO学习这些对应函数空间之间的映射。从逼近理论的角度来看,SRNO首先将LR输入嵌入到一个更高维的潜在表示空间,试图捕捉足够的基函数,接着通过内核积分机制迭代逼近隐含的图像函数,然后通过...