【深度学习】SFNet:Semantic Flow for Fast and Accurate Scene Parsing

Posted by ShawnD on September 9, 2022

Abstract

这篇文章重点设计了快速准确 scene parsing 的有效方法。

改进性能的常见做法是获得具有强大语义表示的高分辨率特征图。

两种策略被广泛使用—— atrous卷积和 feature pyramid 融合,它们要么是计算密集型的,要么是无效的。

受启发于相邻视频帧之间运动对齐的光学流的启发,作者提出了一个 Flow Alignment 模块(FAM), 用于学习相邻 level 特征图之间的 Semantic Flow,并有效和高效地将 high-level 分辨率特征广播到高分辨率特征。

进一步, 将该模块集成到通用特征金字塔结构中,即使在 ResNet-18 等轻量型骨干网络上,也比其他实时方法表现出更好的性能。

Conclusion

这篇文章设计使用学习的 Semantic Flow 将特征金字塔生成的多级特征图与 scene parsing 任务对齐。通过提出的光流对齐模块,高级特征被很好地融合到高分辨率的低级特征图中。

通过丢弃 atrous 卷积以减少计算开销,并使用光流对齐模块来丰富低级特征的语义表示,网络实现了语义分割精度和运行时间效率之间的最佳权衡。