MrD's Blog

我干了什么 究竟拿了时间换了什么

【深度学习】FPN:Feature Pyramid Networks for Object Detection

Abstract 特征金字塔是识别系统中检测不同尺度物体的基本组成部分。 但最近的深度学习目标检测器避免了金字塔的表征,部分原因是它们是计算和内存密集型的。 这篇文章利用深度卷积网络固有的多尺度金字塔层次结构,以少量的额外成本构建特征金字塔。 开发了一个具有横向连接的自上而下的架构,用于构建各种尺度的高级语义特征图。 这种架构被称为特征金字塔网络(FPN),在几个应用程序中作为通用...

【深度学习】PANet:Path Aggregation Network for Instance Segmentation

Abstract 信息在神经网络中的传播方式非常重要。 这篇文章作者提出了 Path Ag- gregation Network (PANet),旨在促进基于 proposal-based 的实例分割框架中的信息流。 具体来说,作者通过自下而上的路径增强,通过下层的准确定位信号来增强整个特征层次结构,从而缩短了下层和最顶层之间的信息路径。 作者提出了自适应特征池化,它将 featur...

【深度学习】EfficientDet: Scalable and Efficient Object Detection

Abstract 模型效率在计算机视觉中变得越来越重要。 这篇文章系统地研究了用于目标检测的中性网络架构设计选择,并提出了几个提高效率的关键优化方法。 首先,作者提出了一种加权双向特征金字塔网络(BiFPN),它允许轻松快速地进行多尺度特征融合。 其次,作者提出了一种复合缩放方法,该方法可以同时统一缩放所有主干、特征网络和 box/class 预测网络的分辨率、深度和宽度。 基于这些...

【Research & Writing】Matlab 使用方法记录

API imcrop() 1 2 A = imread("图片名") B = imcrop(A ,[x y width length]) 设置 Axis 在 Figture 中的边距、大小 1 set(gca,'Position', [.13 .17 .80 .74]); Reference 浅谈MATLAb中imcrop()函数 MATLAB 中设置 Figure ...

【深度学习】SFNet:Semantic Flow for Fast and Accurate Scene Parsing

Abstract 这篇文章重点设计了快速准确 scene parsing 的有效方法。 改进性能的常见做法是获得具有强大语义表示的高分辨率特征图。 两种策略被广泛使用—— atrous卷积和 feature pyramid 融合,它们要么是计算密集型的,要么是无效的。 受启发于相邻视频帧之间运动对齐的光学流的启发,作者提出了一个 Flow Alignment 模块(FAM), 用于学...

【深度学习】DeepLab:Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

Abstract 在这项工作中,作者用深度学习解决了图像语义分割任务,并作出了三个主要贡献,实验表明有实质性的实际价值。 首先,作者强调了带上采样 filters 的卷积, 叫做 “atrous convolution”, 作为密集预测任务的工具。 Atrous 卷积允许明确地控制分辨率,在深度卷积神经网络中计算特征响应。 它还允许我们在不增加参数数量或计算量的情况下,有效地扩大fi...

【深度学习】DeepLab V3:Rethinking Atrous Convolution for Semantic Image Segmentation

Abstract 在这项工作中,作者重新审视了 atrous 卷积,这是一个在语义图像分割应用中显式调整 filter 视野以及控制深卷积神经网络计算的特征响应分辨率的强大工具。 为了解决在多个尺度上分割物体的问题,作者设计了在级联或并行中使用 atrous 卷积的模块,通过采用多个 atrous rate 捕获多尺度上下文。 此外,作者提出增强 Atrous Spatial Pyra...

【深度学习】SENet:Squeeze-and-Excitation Networks

Abstract 卷积神经网络(CNN)的中心组成部分是卷积运算子,它使网络能够通过在每个层的局部感受野中融合空间和通道信息来构建信息特征。 之前的一项广泛研究调查了这种关系的空间组件,试图通过提高整个特征层次结构中空间编码的质量来加强CNN的表示能力。 在这项工作中,作者专注于通道关系,并提出了一个新的架构单元,称之为“Squeeze-and-Excitation”(SE)块,通过显式...

【深度学习】DeSCI:Rank Minimization for Snapshot Compressive Imaging

Abstract 快照压缩成像(Snapshot compression imaging, SCI)是指将多帧图像映射为一次测量的压缩成像系统,视频压缩成像和高光谱压缩成像是两种代表性应用。 虽然高速视频和高光谱图像已经取得了令人振奋的结果,但其较差的重建质量阻碍了SCI的广泛应用。 这篇文章旨在通过利用期望信号中的高维结构来提高SCI的重构质量。 作者建立了一个联合模型,其集成了视...

【深度学习】GFNet:Global Filter Networks for Image Classification

Abstract 近年来在视觉的自注意力和纯多层感知器(MLP)模型方面取得的进展显示出在减少归纳偏置的情况下实现有前景的性能方面的巨大潜力。 这些模型通常基于从原始数据中学习空间位置之间的相互作用。 这篇文章提出了一种概念上简单但计算效率高的全局滤波网络(GFNet),它学习频率域内具有对数线性复杂度的长程空间相关性。 该架构用三个关键操作取代了视觉 Transformer 中的自...