MrD's Blog

我干了什么 究竟拿了时间换了什么

【深度学习】Deformable ConvNets v2: More Deformable, Better Results

Abstract Deformable Convolutional 的卓越性能源于其适应物体几何形状变化的能力。 通过检查其自适应行为,作者观察到,虽然其神经特征的空间支持比正常 ConvNets 更符合目标结构,但这种支持可能永远不会远远超出感兴趣的区域,导致特征受到无关图像内容的影响。 为了解决这一问题,作者提出了一种 Deformable ConvNets 的重构方法,通过增加建...

【深度学习】DCN:Deformable Convolutional Networks

Abstract 由于其构建模块中的固定几何结构,卷积神经网络(CNN)本质上仅限于模拟几何变换。 在这项工作中,作者引入了两个新模块,以提高 CNN 的变换建模能力,即 deformable convolution 和 deformable RoI pooling。 两者都基于使用额外的偏移量来增强模块中的空间采样位置的想法,并在没有额外监督的情况下从目标任务中学习偏移量。 新模块...

【深度学习】S2-TRANSFORMER FOR MASK-AWARE HYPERSPEC- TRAL IMAGE RECONSTRUCTION

Abstract 高光谱成像(HSI)技术记录远距离分布光谱波长的视觉信息。 具有代表性的高光谱图像采集过程通过编码孔径快照光谱成像仪(CASSI)进行3D到2D编码,并需要软件解码器进行3D信号重建。 基于这种编码过程,两个主要挑战阻碍了高保真重建: (i)为了获得二维测量,CASSI通过色散棱镜将多个通道位移,并将其压缩到同一空间区域,从而产生耦合的数据丢失。 (ii)物理编码...

【深度学习】SOLO: Segmenting Objects by Locations

Abstract 这篇文章提出了一种新的的简单实例分割方法。 与许多其他密集的预测任务(例如语义分割)相比,任意数量的实例使实例分割更具挑战性。 为了预测每个实例的 mask,主流方法要么遵循 “检测然后分割” 策略(例如,Mask R-CNN),要么先预测嵌入向量,然后使用聚类技术将像素分组到单个实例中。 作者通过引入 “实例类别” 的概念,从全新的角度看待实例分割任务,该概念根据...

【深度学习】SOLOv2: Dynamic and Fast Instance Segmentation

Abstract 在这项工作中,作者设计了一个简单、直接和快速用于实例分割的具有强大性能的框架。 为此,作者按照SOLO方法的原则,提出了一种新颖有效的方法,称为SOLOv2。 首先,作者的新框架由高效和整体的实例 mask 表征方法赋能,该方案动态分割图像中的每个实例,而无需边界框检测。 具体而言,目标 mask 生成被解耦为 mask kernel 预测和 mask 特征学习,它...

【深度学习】RetinaNet:Focal Loss for Dense Object Detection

Abstract 迄今为止,精度最高的目标检测器基于 R-CNN 推广的两阶段方法,其中分类器应用于一组稀疏的候选目标定位。 相比之下, 密集采样的单阶段探测器有可能更快、更简单,但到目前为止,已经落后于两阶段检测器的准确性。 这篇文章调查了为什么会这样。 作者发现,在训练密集检测器时遇到的前景-背景类不平衡是核心原因。 作者提出通过重塑标准交叉熵损失,降低分配给分类良好的样本的损...

【深度学习】Mask R-CNN

Abstract 这篇文章为目标实例分割提供了一个概念简单、灵活和通用的框架。 该方法有效地检测图像中的目标,同时为每个实例生成高质量的分割 mask。 该方法称为Mask R-CNN,通过向边界框识别的分支添加一个分支来预测目标 mask,扩展了 Faster R-CNN。 Mask R-CNN 易于训练,仅为 Faster R-CNN 增加了一个小开销,运行速度为5 fps。 ...

【深度学习】OTA: Optimal Transport Assignment for Object Detection

Abstract 目标检测标签分配的最新进展主要寻求为每个真实目标定义正/负训练样本。 这篇文章从全局角度创新地重新审视了标签分配,并提出将分配过程表述为最优传输(OT)问题——这是优化理论中一个经过充分研究的课题。 具体而言,我们将每个先验框(demander)和真实标签(supplier)对之间的单位运输成本定义为其分类和回归损失的加权和。 制定后,找到最佳分配解决方案,以最低的...

【深度学习】DINO:DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

Abstract 这篇文章提出 DINO(DETR with Improved deNoising anchOr boxes),一种最先进的端到端目标检测器。 与之前类似DETR的模型相比,DINO通过使用对比方法进行去噪训练、用于先验框初始化的 mixed query selection 方法以及用于边界框预测的 look forward twice scheme,在性能和效率方面有所...

【深度学习】Conditional DETR for Fast Training Convergence

Abstract 最近开发的 DETR 方法将 Transformer 编码器和解码器架构应用于目标检测,并实现了有前景的性能。在这篇文章中,作者处理一个关键问题,训练收敛缓慢,并提出了加速 DETR 训练的 conditional cross-attention 机制。该方法的动机是,DETR中的交叉注意力高度依赖于 content embeddings 来定位坐标并预测边界框,这增加...