MrD's Blog

我干了什么 究竟拿了时间换了什么

【深度学习】YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors

Abstract 在5 FPS到160 FPS的范围内,YOLOv7在速度和精度上都超过了所有已知的目标检测器,在GPU V100上具有30 FPS或更高, AP精度最高56.8%。 YOLOv7-E6 目标检测器(56 FPS V100,55.9% AP)的速度比基于 Transformer 的检测器 SWIN-L Cascade-Mask R-CNN(9.2 FPS A100,53....

【深度学习】Libra R-CNN:Towards Balanced Learning for Object Detection

Abstract 与模型结构相比,训练过程对检测器的成功也至关重要,但在物体检测中受到的关注相对较少。 在这项工作中,作者仔细重新审视了检测器的标准训练实践,发现检测性能往往受到训练过程中不平衡的限制,不平衡通常由三个级别组成——样本级别、特征级别和目标级别。 为了减轻由此造成的不利影响,作者提出了Libra R-CNN,这是一个简单但有效的框架,旨在平衡学习目标检测。 它集成了三个...

【深度学习】CSPNet:A New Backbone That Can Enhance Learning Capability of CNN

Abstract 神经网络使最先进的方法能够在物体检测等计算机视觉任务上取得惊人的结果。 然而,这种成功在很大程度上依赖于昂贵的计算资源,这阻碍了没有设备的人使用最先进的技术。 这篇文章提出了Cross Stage Partial Network(CSPNet),以缓解以前的工作需要从网络架构角度进行大量推理计算的问题。 作者将问题归因于网络优化中的重复梯度信息。 所提出的网络通过...

【深度学习】Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer

Abstract 最近,基于窗口的 Transformer 在非重叠的局部窗口中计算了自注意力,在图像分类、语义分割和目标检测方面展示了有前景的结果。 然而,对跨窗口连接的研究较少,这是提高表征能力的关键因素。 在这项工作中,作者重新审视了 Spatial Shuffle,将其作为在窗口之间建立连接的有效方法。 因此,作者提出了一种名为 Shuffle Transformer 的新 ...

【深度学习】DETR:End-to-End Object Detection with Transformers

Abstract 这篇文章提出了一种将目标检测视为集合预测问题的新方法。 该方法简化了目标检测流程,有效地消除了对许多手工设计的组合的需求,如非极大值抑制过程或 Anchor 生成,这些过程或 Anchor 生成明确编码了对该任务的先验知识。 新框架的主要成分称为 DEtection TRansformer 或 DETR,是基于集合的全局损失,其通过二分匹配和Transformer码器...

【深度学习】Spatial as Deep(SCNN): Spatial CNN for Traffic Scene Understanding

Abstract 卷积神经网络(CNN)通常通过逐层堆叠卷积操作来构建。 尽管 CNN 表现出从原始像素中提取语义的强大能力,但它在图像的行和列中捕获像素空间关系的能力尚未得到充分探索。 这些关系对于学习具有强形状先验但外观相干性较弱的语义对象很重要,例如交通车道,如图1(a)所示,这些车道经常被堵塞甚至没有绘制在路面上。 这篇文章提出了 Spatial CNN(SCNN),它将传统...

【深度学习】BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time Semantic Segmentation

Abstract 低级细节和高级语义对语义分割任务都至关重要。然而,为了加快模型推断,当前方法几乎总是牺牲低层次的细节,这导致准确性大幅下降。 这篇文章提出分别处理这些空间细节和分类语义,以实现实时语义分割的高精度和高效率。 为此,作者提出了一个高效和有效的架构,在速度和准确性之间进行良好的权衡,称为双边分割网络(BiSeNet V2)。 该架构包括: (i)具有宽通道和浅层的细节...

【深度学习】YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications

Abstract 多年来,YOLO系列一直是高效物体检测的实际行业级标准。 YOLO社区以压倒性优势繁荣,以丰富其在众多硬件平台和丰富的场景中的使用。 在本技术报告中,作者将其提升到一个新的水平,以坚定不移的行业应用心态向前迈进。 考虑到在现实环境中对速度和准确性的不同要求,作者广泛研究了工业届和学术界的最新物体检测进展情况。 具体上讲,作者从最近的网络设计、训练策略、测试技术、量...

【深度学习】YSLAO: You Should Look at All Objects

Abstract 特征金字塔网络(FPN)是目标检测器的关键组件之一。 然而,对于研究人员来说,有一个长期存在的谜题,即在引入FPN后,大目标的检测性能被普遍抑制。 为此,这篇首先在检测框架中重新审视 FPN,并从优化的角度揭示了 FPN 成功的性质。 然后,作者指出,大目标检测性能下降是由于集成 FPN 后出现不合适的反向传播路径。 它使骨干网络的每个级别只能查看特定尺度范围内的...

【深度学习】YOLOv3: An Incremental Improvement

Abstract 为了让 Yolo 变得更好,作者做了一些小的设计更改。 作者还训练了这个相当 swell 的新网络。 它比上次大一点,但更准确。 不过,它仍然很快,别担心。 在 $320 \times 320$ 时,YOLO v3 以 22 毫秒的速度得到 28.2 mAP, 与SSD一样准确,但速度是 SSD 的三倍。 当我们查看旧的 .5 IOU mAP 检测指标 YOLO...