MrD's Blog

我干了什么 究竟拿了时间换了什么

【深度学习】A New TwIST: Two-Step Iterative Shrinkage Thresholding Algorithms for Image Restoration

Abstract 在图像复原和其他线性逆问题中,Iterative shrinkage/thresholding(IST) 算法被提出用于处理一类无约束凸优化问题。 这类问题是将 linear observation 模型与 nonquadratic regularizer(如 total variation 或 wavelet-base 的正则化)相结合的结果。 这些IST算法的收敛速...

【深度学习】You Only Look Once(YOLO V1): Unified, Real-Time Object Detection

Abstract 作者提出了一种新的目标检测方法YOLO。先前的目标检测工作将分类器重用于检测。这篇文章将目标检测定义为空间分离的bbox和相关的类概率的回归问题。在一次评估中,单个神经网络直接从完整图像预测 bbox 和类概率。由于整个检测 pipeline 是一个单一的网络,因此可以在检测性能上直接进行端到端优化。 base YOLO模型以每秒45帧的速度实时处理图像。网络的一个小版...

【深度学习】YOLO9000(YOLO V2): Better, Faster, Stronger

Abstract 这篇文章提出的YOLO9000是一款最先进的实时物体检测系统,可以检测9000多种物体类别。 首先,作者对YOLO检测方法提出了各种改进,既有新提出的也有借鉴了之前的工作。 改进后的模型YOLOv2在PASCAL VOC和COCO等标准检测任务上是最先进的。 作者采用了一种新的多尺度训练方法,同样的YOLOv2模型可以在不同的尺寸下运行,在速度和精度之间提供了一种简...

【深度学习】YOLO Series Survey

YOLO V1 Overview Darknet 作者使用1×1 reduction layers,然后使用 3×3 卷积层 Loss 计算 $$ l = \lambda_{coord} \sum_{i=0}^{S^2} \sum_{j=0}^B \mathbb{1}_{ij}^{obj} [(x_i - \hat x_i)^2 + (y_i - \hat y_i)^2] ...

【深度学习】Segmentation Transformer(OCRNet): Object-Contextual Representations for Semantic Segmentation

Abstract 这篇文章研究了语义分割中的上下文聚合问题。基于像素的标签是该像素所属对象的类别,作者提出了一种简单而又客观的方法,object-contextual representations,通过利用对应对象类的表示来表征一个像素。首先,作者在真实标签分割的监督下学习目标区域。其次,作者通过聚集 object region 内像素的 representations 来计算 obje...

【深度学习】PP-LiteSeg:A Superior Real-Time Semantic Segmentation Model

Abstract 实际应用对语义分割方法有很高的要求。 虽然语义分割随着深度学习取得了显著的飞跃,但实时方法的性能并不令人满意。 这篇文章提出了一种用于实时语义分割任务的轻量级模型PP-LiteSeg。 具体地说,作者提出了一种灵活的轻量级解码器(FLD),以减少以前解码器的计算开销。 为了加强特征表示,作者提出了一种统一注意融合模块(UAFM),该模块利用空间注意力和通道注意力产...

【深度学习】HarDNet: A Low Memory Traffic Network

Abstract 最先进的神经网络架构,如ResNet, MobileNet和DenseNet,已经在低 MACs 和小模型尺寸的对应产品上取得了卓越的精度。 但是,这些度量对于预测推断时间可能不准确。 作者认为,访问中间特征映射的 memory traffic 可能是决定推断延迟的一个因素,特别是在实时目标检测和高分辨率视频的语义分割等任务中。 作者提出了 Harmonic Den...

【深度学习】DeepLabV3+:Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

Abstract 深度神经网络采用空间金字塔池化模块或编码-解码器结构完成语义分割任务。 前者可以通过用 filters probing 传入的特征或以 multiple rates 和 multiple effective fields-of-view 的池化操作来编码多尺度的上下文信息,而后者可以通过逐渐恢复空间信息来捕获更清晰的物体边界。 在这项工作中,作者提出结合两种方法的优点...

【深度学习】SPP-net:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

Abstract 现有的深度卷积神经网络(CNNs)需要固定大小的输入图像(例如 $224 \times 224$ )。 这个需要是人工的并且可能会减少任意大小的图像的识别准确率。 在这项工作中,作者为网络配备了另一种池化策略——空间金字塔池化,以消除上述要求。 该网络结构叫做 SPP-net, 无论图像的大小多少, 其都能够生成固定长度的表征。 Pyramid pooling 对...

【深度学习】YOLOX: Exceeding YOLO Series in 2021

Abstract 在这份报告中,作者介绍了YOLO系列的一些实验改进,形成了一种新的高性能探测器YOLOX。 作者将YOLO检测器转换为 Anchor-free 的方式,并实现了其它先进的检测技术。 此外,作者使用单一的YOLOX-L模型赢得了 Streaming Perception 挑战(CVPR 2021年自动驾驶研讨会)的第一名。 YOLOX YOLOX-DarkNet53...