【深度学习】Captioning Images Taken by People Who Are Blind

Posted by ShawnD on January 23, 2022

Absract

尽管为图像自动生成描述是视觉领域的一个重要问题, 但是几乎没有可用的数据集可以直接解决真正用户真正的问题。

盲人依赖图像描述生成学习图像, 我们引入了第一个图像描述数据集来表达这种真正的实际需要。

VizWiz-Captions 有39000张图像, 这些图像匹配五句描述,它们是一个从真实的盲人用户那收集的数据集,能准确反映用户的真实需求。

Conclusion

我们提供了Viz-Wiz-Captions 数据集作为一项有价值的用于设计image captioning 算法的基础以支持自然界中、社会中真实的需求。

我们的分析揭露了视觉领域中需要被解决的重要问题, 以便设计更具有泛化能力的算法。

未来的工作可能包含额外的传感器来满足真实用户的需求, 如GPS, 声波等。