Abstract
现有的现实世界视频超分辨率(VSR)方法专注于为开放域视频设计一个通用的退化流程,却忽略了数据固有特性,这些特性在应用于某些特定领域(例如,动画视频)时极大地限制了它们的性能。
在本文中,我们彻底探讨了动画视频的特点,并利用现实世界动画数据中丰富的先验知识来打造一个更实用的动画视频超分辨率模型。
特别是,我们提出了一个用于动画视频超分辨率的多尺度向量量化退化模型(VQD-SR),以将局部细节从全局结构中分解出来,并将现实世界动画视频中的退化先验传递至一个学习到的矢量量化码本以进行退化建模。
我们收集了一个内容丰富的真实动画低质量(RAL)视频数据集来提取这些先验知识。
基于我们观察到现有的高分辨率(HR)训练视频大多从网络上收集而来,而网络中的视频通常包含明显的压缩伪影,我们进一步提出了一种数据增强策略。所提出的策略对于提升动画视频超分辨率性能的上限是有效的,不管具体使用的是哪一种VSR模型。
实验结果通过对最新的动画视频超分辨率基准进行广泛的定量和定性评估,证明了所提出的VQD-SR模型相较于当前最先进的方法具有更优越的性能。
Methodology
Real-World Degradation in Animation Videos
为了彻底理解动画视频的特点以及动画视频超分辨率(VSR)任务的挑战,我们收集了一个真实的低质量动画视频数据集(Real Animation Low-quality, RAL)。RAL包含从441部真实世界低质量动画视频中提取的超过10K个低分辨率(LR)帧。据我们所知,RAL是动画领域中最大的真实世界低质量视频数据集。样例帧如图2所示(RAL的统计信息在补充材料中可以找到)。为了构建这样一个数据集,我们首先从YouTube和Bilibili等多个视频网站下载了大量早期的动画视频。然后我们手动根据视频的分辨率、质量、内容和风格来选择视频。为了确保数据集包含丰富的动画结构和降级先验,我们采用了一个简单的场景过滤程序,通过评估它们的平均绝对差异来移除运动微弱的帧,从而减少冗余。
动画视频大致由平滑的颜色块和清晰的线条组成,而后者通常在描绘物体和表达视觉语义方面起着重要作用。与开放域视频的退化损失主要关于高频纹理不同,动画视频的降级大多发生在边缘周围,这些边缘根据人类感知更为敏感。这些降级通常表现为断断续续的边缘、混叠边缘、振铃伪影和彩虹效应,如图2所示。对提出的RAL数据集的这些观察启发我们,动画VSR的关键挑战是恢复视觉上自然而清晰的边缘。
-
Previous
【ICCV 2023】SPIN:Lightweight Image Super-Resolution with Superpixel Token Interaction -
Next
【深度学习】LangChain