MrD's Blog

我干了什么 究竟拿了时间换了什么

【ICCV 2021】LeViT:A Vision Transformer in ConvNet's Clothing for Faster Inference

Abstract 我们设计了一系列图像分类架构,以在高速环境中优化准确性和效率之间的权衡。我们的工作利用了基于注意力的架构中的最新发现,这些架构在高度并行处理硬件上具有竞争力。我们重新审视了卷积神经网络广泛文献中的原则,并将其应用于 Transformer 模型,特别是具有递减分辨率的激活图。我们还引入了注意力偏置,一种在视觉变压器中整合位置信息的新方法。 因此,我们提出了LeViT:一...

【CVPR 2023】EVA:Exploring the Limits of Masked Visual Representation Learning at Scale

Abstract 我们推出了EVA,一个以视觉为中心的基础模型,旨在通过仅使用公开可访问的数据来探索视觉表示的极限。 EVA 是一个预训练的标准视觉 Transformer(ViT),其任务是重建被 mask 的图像-文本对齐的视觉特征,这些特征是根据可见的图像块进行条件生成的。 通过这一前置任务,我们可以高效地将EVA扩展到十亿个参数,并在广泛的代表性视觉下游任务中创下新纪录,如图像...

【NIPS 2022】FocalNet:Focal Modulation Networks

Abstract 我们提出了一种焦点调制网络(简称FocalNets),其中自注意力(SA)完全被用于建模视觉中的标记交互的焦点调制模块所取代。 焦点调制包括三个部分: (i)焦点情境化,通过一组深度卷积层来实现,用于编码从短程到长程的视觉情境; (ii)门控聚合,用于选择性地将情境汇聚到每个查询标记的调制器中; (iii)逐元素仿射变换,将调制器注入查询标记。 大量实验表明,Foc...

【CVPR 2023】RIFormer:Keep Your Vision Backbone Effective But Removing Token Mixer

Abstract 这篇论文研究了如何在去除视觉骨干网络中基本构建模块中的令牌混合器的情况下,保持视觉骨干网络的有效性。 令牌混合器,作为视觉变换器(ViTs)的自注意力机制,旨在实现不同空间令牌之间的信息传递,但其计算成本和延迟相当高。 然而,直接去除这些混合器会导致模型结构先验不完整,从而导致显著的准确率下降。 为此,我们首先基于重参数化的思路开发了一个RepIdentityFor...

【arXiv 2024】FriendNet:Detection-Friendly Dehazing Network

Abstract 恶劣天气条件常常会损害捕获图像的质量,不可避免地影响到先进驾驶辅助系统(ADAS)和自动驾驶的尖端目标检测模型。 在本文中,我们提出了一个有趣的问题——图像恢复与目标检测的结合能否在恶劣天气条件下提高检测性能? 为了解答这个问题,我们提出了一种有效的架构,将图像去雾和目标检测通过引导信息和任务驱动学习相结合,以实现有利于检测的去雾,称为FriendNet。 Frie...

【TNNLS 2023】Image Enhancement Guided Object Detection in Visually Degraded Scenes

Abstract 在视觉退化场景中,目标检测的准确性严重下降。 一种自然的解决方案是先增强退化的图像,然后再进行目标检测。 然而,由于图像增强和目标检测任务的分离,这种方法并不理想,并不一定会改善目标检测的效果。 为了解决这个问题,我们提出了一种图像增强引导的目标检测方法,该方法通过一个额外的增强分支以端到端的方式优化检测网络。 具体来说,增强分支和检测分支以并行方式组织,并设计了...

【AAAI 2022】IA-YOLO:Image-Adaptive YOLO for Object Detection in Adverse Weather Conditions

Abstract 尽管基于深度学习的目标检测方法在传统数据集上取得了令人鼓舞的结果,但在恶劣天气条件下捕获的低质量图像中定位目标仍然具有挑战性。 现有的方法要么难以平衡图像增强和目标检测任务,要么常常忽略对检测有益的潜在信息。 为了解决这个问题,我们提出了一种新的图像自适应YOLO (IA-YOLO) 框架,其中每幅图像都可以自适应地增强以获得更好的检测性能。 具体来说,我们提出了一...

【TGRS 2024】HPC-UDN:An Unsupervised Dehazing Network With Hybrid Prior Constraints for Hyperspectral Image

Abstract 在高光谱图像(HSIs)中,雾霾污染会导致表面信息缺失和图像清晰度下降,严重影响后续图像解释的性能。 现有的基于模型的高光谱去雾方法具有良好的可解释性和泛化性,但由于原理限制,它们只能处理特定波长范围内的图像。 基于深度学习的去雾方法具有良好的特征提取能力,但在实际应用中获得足够的训练数据成本较高。 同时,考虑到HSIs具有光谱低秩结构,充分利用低秩特性将有助于HS...

【Research & Writing】本地搭建 Overleaf

环境配置 在阿里云服务器上,没有图形界面配置 overleaf 会有一些坑 安装 docker 安装 docker-compose 安装图形界面 Overleaf Toolkit Upgrading TexLive 要在 Overleaf 容器内启动 shell,请运行 1 bin/shell 你将收到如下提示: 1 2 root@309b192d4030:/# ...

【arXiv 2024】SSUMamba: Spatial-Spectral Selective State Space Model for Hyperspectral Image Denoising

Abstract 高光谱图像(HSI)去噪是一项关键的预处理过程,因为噪声源自图像内部机制和环境因素。 利用HSI的领域特定知识,如光谱相关性、空间自相似性和空间-光谱相关性,对基于深度学习的去噪至关重要。 现有方法通常受到运行时间、空间复杂度和计算复杂度的限制,采用探索这些先验的单独策略。 虽然这些策略可以避免一些冗余信息,但它们不可避免地忽视了更广泛和更基础的长程空间-光谱信息,...