Absract

尽管为图像自动生成描述是视觉领域的一个重要问题，但是几乎没有可用的数据集可以直接解决真正用户真正的问题。

盲人依赖图像描述生成学习图像，我们引入了第一个图像描述数据集来表达这种真正的实际需要。

VizWiz-Captions 有39000张图像，这些图像匹配五句描述，它们是一个从真实的盲人用户那收集的数据集，能准确反映用户的真实需求。