MrD's Blog

我干了什么究竟拿了时间换了什么

【NIPS 2022】Deep fourier up-sampling

Abstract 现有的卷积神经网络广泛采用空间下/上采样进行多尺度建模。然而，空间上采样操作（例如插值、转置卷积和 un-pooling）严重依赖于局部像素注意力，难以探索全局依赖关系。相比之下，傅里叶域遵循谱卷积定理的全局建模性质。与在具有局部相似性属性的空间域进行上采样不同，傅里叶域中的上采样更具挑战性，因为它不遵循这样的局部属性。在这项研究中，我们提出了一个理论上健...

Posted by ShawnD on January 19, 2024

【arXiv 2023】SpectralGPT：Spectral Foundation Model

Abstract 近期，基础模型由于其在自监督方式下革新视觉表示学习领域的潜力而受到了显著关注。尽管大多数基础模型都被定制为有效处理RGB图像以完成各种视觉任务，但在针对光谱数据的研究中仍存在显著的空白。光谱数据为场景理解提供了宝贵信息，尤其是在遥感（RS）应用中。为了填补这一空缺，我们首次创建了一个通用的遥感基础模型，名为SpectralGPT，它专门用于处理光谱遥感图像，使...

Posted by ShawnD on January 9, 2024

【ICCV 2023】MRLPFNet：Multi-scale Residual Low-Pass Filter Network for Image Deblurring

Abstract 我们提出了一种简单而有效的多尺度残差低通滤波网络（MRLPFNet），它联合探索图像细节和主结构，用于图像去模糊。我们的工作是由一个观察所激发的，即模糊图像和清晰图像之间的差异不仅包含高频内容，还包括由于模糊影响而产生的低频信息，而使用标准的残差学习对于模拟模糊所扭曲的主结构则效果不佳。考虑到低频内容通常对应于空间变化的主要全局结构，我们首先基于自注意力机制提出了...

Posted by ShawnD on January 8, 2024

【NIPS 2022】SatMAE：Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery

Abstract 无监督预训练方法用于大型视觉模型已显示出在下游监督任务上提高性能的潜力。为卫星图像开发类似技术提供了重大机遇，因为未标记数据丰富，其固有的时间和多光谱结构提供了进一步改进现有预训练策略的途径。在本文中，我们介绍了SatMAE，这是一个基于 Masked Autoencoder（MAE）的时序或多光谱卫星图像预训练框架。为了利用时间信息，我们在跨时间独立掩蔽图像...

Posted by ShawnD on January 7, 2024

【NIPS 2023】Hyper-Skin: A Hyperspectral Dataset for Reconstructing Facial Skin-Spectra from RGB Images

Abstract 我们介绍了 Hyper-Skin，这是一个覆盖从可见光谱 (VIS) （400nm - 700nm）到近红外光谱 (NIR) （700nm - 1000nm）的广泛波长范围的高光谱数据集，专门设计用于促进面部皮肤光谱重建研究。通过从 RGB 图像重建皮肤光谱，我们的数据集使得在消费者设备上直接研究高光谱皮肤分析成为可能，如黑色素和血红蛋白浓度。 Hyper-Skin...

Posted by ShawnD on January 6, 2024

【NIPS 2022】ScaoedNet：Enhanced Latent Space Blind Model for Real Image Denoising via Alternative Optimization

Abstract 受到基于模型的方法的成就和深度网络的进展的启发，我们提出了一种新的增强潜空间盲模型的深度展开网络，即ScaoedNet，用于复杂真实图像去噪该方法是通过在去噪代价函数中引入潜空间、噪声信息和引导约束而衍生出来的。我们提出了一种自我修正的交替优化算法，将新的代价函数分解为三个交替子问题，即引导表示（GR）、退化估计（DE）和重建（RE）子问题。最后，我们通过由G...

Posted by ShawnD on January 2, 2024

【arXiv 2023】UEM：Computational Spectral Imaging with Unified Encoding Model: A Comparative Study and Beyond

Abstract 计算光谱成像由于其快照优势而受到越来越多的关注，幅度、相位和波长编码系统是三种代表性实现方式。公平地比较和理解这些系统的性能至关重要，但由于编码设计的异质性，这一任务颇具挑战性。为了克服这一限制，我们提出了统一编码模型（UEM），它涵盖了使用这三种编码类型的所有物理系统。具体来说，UEM包括物理幅度、物理相位和物理波长编码模型，这些模型可以与数字解码模型结合在...

Posted by ShawnD on December 31, 2023

【arXiv 2023】In2SET: Intra-Inter Similarity Exploiting Transformer for Dual-Camera Compressive Hyperspectral Imaging

Abstract 双摄像头压缩高光谱成像（DC-CHI）提供了通过融合压缩和全色（PAN）图像重建三维高光谱图像（HSI）的能力，这在实践中对快照式高光谱成像显示出巨大潜力。在本文中，我们介绍了一种新型的DCCHI重建网络——内部-间部相似性利用变换器（In2SET）。我们的关键见解是充分利用PAN图像来辅助重建。为此，我们提出使用PAN图像内部的相似性作为代理，以近似原始HS...

Posted by ShawnD on December 30, 2023

【WACV 2024】Beyond Fusion：Modality Hallucination-based Multispectral Fusion for Pedestrian Detection

Abstract 行人检测是许多下游应用的基础任务。可见光和热成像作为两种最重要的数据类型，通常用于在各种环境条件下检测行人。许多最先进的工作提出使用双流（即双分支）架构来结合可见光和热成像信息以提高检测性能。然而，传统的基于可见光-热融合的方法在能见度差的条件下无法从可见光分支获取有用信息。有时可见光分支甚至可能会将噪声带入融合特征中。在本文中，我们提出了一种新型的热...

Posted by ShawnD on December 26, 2023

【CVPR 2022】Explore Spatio-temporal Aggregation for Insubstantial Object Detection: Benchmark Dataset and Baseline

Abstract 我们致力于一个较少探索的任务，名为“非实体对象检测”（IOD），其目标是定位具有以下特征的对象：（1）形状不规则，边界不明显；（2）与周围环境相似；（3）无颜色。因此，区分单一静态帧中的非实体对象远比普通任务更具挑战性，空间与时间信息的协同表达至关重要。因此，我们构建了一个包含600个视频（141,017帧）的IOD-视频数据集，涵盖了不同的距离、大小、可见度和场...

Posted by ShawnD on December 25, 2023