MrD's Blog

我干了什么 究竟拿了时间换了什么

【深度学习】DESTR: Object Detection with Split Transformer

Abstract Transformer 中的自注意力和交叉注意力提供了高模型能力,使其成为目标检测的可行模型。 然而,Transformer 的表现仍然落后于基于CNN的检测器。 这主要是因为: a) 交叉注意力用于分类和边界框回归任务; b) Transformer 的解码器初始化 content query 的能力很差; c) 自注意力不能很好地解释某些有助于提升归纳偏置的...

【深度学习】ViTDet:Exploring Plain Vision Transformer Backbones for Object Detection

Abstract 作者探索了朴素的、非层次化的视觉 Transformer(ViT)作为目标检测的骨干网络。 这种设计使原始的ViT架构能够进行微调,以进行目标检测,而无需重新设计用于预训练的层次化骨干。 通过最小的微调调整,所提出的普通骨干检测器可以实现有竞争力的结果。 令人惊讶的是,作者观察到: (i)从单尺度特征图(没有常见的FPN设计)构建一个简单的特征金字塔就足够了 (...

【深度学习】FCOS: Fully Convolutional One-Stage Object Detection

Abstract 我们提出了一种全卷积的单阶段目标检测器(FCOS),以逐像素预测方式解决目标检测问题,类似于语义分割。 几乎所有最先进的目标检测器,如RetinaNet、SSD、YOLOv3 和 Faster R-CNN,都依赖于预定义的先验框。 相比之下,作者提出的检测器 FCOS 是无先验框的,也是无提议区域的。 通过消除预先定义的先验框,FCOS完全避免了与先验框相关的复杂计...

【深度学习】USRNet:Deep Unfolding Network for Image Super-Resolution

Abstract 与传统的基于模型的方法相比,基于学习的单图像超分辨率(SISR)方法持续表现出更好地有效性和效率,这主要是由于端到端训练。 然而,与基于模型的方法不同,基于模型的方法可以在统一的MAP(最大后验)框架工作下处理具有不同尺度因子的SISR问题、模糊内核和噪声水平,基于学习的方法通常缺乏这种灵活性。 为了解决这个问题,这篇文章提出了一个端到端可训练的展开网络,该网络同时利...

【深度学习】3DT-Net :Learning A 3D-CNN and Transformer Prior for Hyperspectral Image Super-Resolution

Abstract 为了解决高光谱图像超分辨率(HSISR)的病态问题,通常的方法是使用高光谱图像(HSIs)的先验信息作为正则化项来约束目标函数。 使用手工制作的先验的基于模型的方法不能完全描述HSI的属性。 基于学习的方法通常使用卷积神经网络(CNN)来学习HSI的隐式先验。 然而,CNN的学习能力有限,它只考虑HSI的空间特征,而忽略了光谱谱间特征,卷积对远程依赖性建模无效。仍然...

【深度学习】压缩光谱成像系统中物理实现架构研究综述

摘要 不同于传统点对点映射成像方式,计算光学成像通过将前端光学信号的物理调制与后端数字信号的计算处理联合起来,使图像信息获取更加高效。 这种新型成像体制有望缓解传统成像技术框架下低制造成本与高性能指标间的矛盾, 尤其在高维图像信息获取中呈现更显著优势。 而物理器件支撑下的系统架构一直是计算光学成像发展的基石,这篇文章针对压缩光谱成像这一子技术领域,介绍了现有可实现空间或光谱调制的光学器...

【Research & Writting】OpenReview 投稿

For Authors call for papers author CVPR 2023 Submission Policies 所有作者都应该仔细检查以下管理投稿和评审过程的政策,因为不遵守这些政策可能会导致您的投稿被拒绝,以及在双重投稿和抄袭的情况下可能会受到额外的处罚。此外,建议作者参考 ethics guidelines、 recommended best practices...

【深度学习】BEVFormer:Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

Abstract 3D视觉感知任务,包括基于多相机图像的3D检测和地图分割,对于自动驾驶系统至关重要。 在这项工作中,作者提出了一个称为 BEVFormer 的新框架,该框架使用时空变压器学习统一的BEV表示,以支持多个自动驾驶感知任务。 简而言之,BEVFormer 发掘空间与时间信息通过预定义的网格形状 BEV queries 与空间和时间空间交互。 为了聚合空间信息,作者设计了...

【深度学习】BEVFormer++:Improving BEVFormer for 3D Camera-only Object Detection:1st Place Solution for Waymo Open Dataset Challenge 2022

Abstract 该报告介绍了上海人工智能实验室2022年Waymo开放数据集挑战赛的解决方案。 基于强大的基线BEVFormer,通过几种简单而有效的技术提高了该方法的性能。 这些技术包括采用几个检测器头、基于 LET-IoU 的分配/后处理、26个模型结果的集成等。 通过使用该方法,作者在2022年Waymo开放数据集挑战赛中在仅限3D相机的目标检测赛道上排名第一。

【Research】CVPR 2023 Call for Papers

Call for Papers 在主要技术方案中的论文必须描述高质量的、原创的研究。感兴趣的主题包括计算机视觉和模式识别的所有方面,包括但不限于: Important Dates 太平洋时间比北京时间晚八个小时。 投稿开始时间为 Oct 17 2022 04:59 PM UTC-0, 摘要注册时间为: Nov 04 2022 04:59PM UTC-0, 投稿截止时间为 Nov...