Abstract
图像检索任务包括从一组图库(数据库)图像中查找与查询图像相似的图像。
这些系统可用于各种应用,例如人员再识别(ReID)或视觉产品搜索。
尽管检索模型得到了积极的发展,但由于视角、光照、背景杂波或遮挡的变化引起的类内方差较大,而类间方差可能相对较低,因此仍是一项具有挑战性的任务。
目前的大部分研究集中在创建更健壮的特征和修改目标函数,通常基于TripletLoss。
一些工作尝试在 Tiplet Loss 上使用 centroid/proxy 一个类别表征以缓解计算速度和hard sample mining的问题。
然而,这些方法只用于训练,在检索阶段被抛弃。
这篇文章提出在训练和检索过程中使用mean centroid 表征。
这样的聚合表征对异常值更健壮,并确保更稳定的特征。
由于每个类都由单个嵌入(class centroid)表示,因此检索时间和存储需求都大大减少。
聚合多个嵌入后,由于候选目标向量的数量减少,搜索空间显著减小,因此该方法特别适用于生产部署。
在两个ReID和Fashion检索数据集上进行的综合实验证明了该方法的有效性,其性能优于目前的先进水平。
这篇文章提出的 centroid training 和检索作为一种可行的方法,无论是时尚检索和ReID应用。
Conclusion
这篇文章引入了 Centroid Triplet Loss —— 一种用于实例检索任务的新的损失函数。
实验证明,该方法显著提高了检索模型的准确性。除了新的损失函数外,这篇文章还提出了在检索推理中使用 class centroid 的方法,进一步提高了检索任务的精度度量。
该方法在在来自两个不同领域的数据集上进行了评估, 行人重识别和时尚检索, 并且在所有数据集上建立了新SOTA。
除了提高准确性,基于 centroid 的推理可以显著提高计算速度并降低内存需求。
-
Previous
【深度学习】VSE++: Improving Visual-Semantic Embeddings with Hard Negatives -
Next
【深度学习】Tree Transformer: Integrating Tree Structures into Self-Attention