和之前其他论文工作不同的是,论文的主要目的是探究不同数据集间标签的关系,而不是将其合并。论文中提到的关系是identity、parent/child、overlap。为了探究这些关系,提出了几种方法:基于language、基于vision、基于两者。
关系:
探索关系的几种方式

在数据集A上训练的pA预测数据集B的实例ib,预测标签名a得到预测集合pA(a|ib),共预测了nb个实例,将这些probability平均一下得到Sa->b, 同样的方法得到Sb->a,然后两者平均得到最终分数Ra,b=(Sa->b+Sb->a)/2。通过限制阈值Ra,b得到标签a和标签b的关系。
使用了两种不同的预测模型pA(a|ib):
Pixel Probabilities:使用A数据集上的分割模型预测B。我们平均实例所有像素的概率值。
Visual Embeddings:A和B使用相同的分割模型(A上训练的),其模型不带分类头,提取A和B上的feature。
训练细节这里不做表述。
理论集合set theory 如一中表述,这里关系是基于两个假设,1、标签a和标签b中仅有一种关系(如果有实例会被预测为a和b)2、相同数据集的标签是无交集的
关系为identity、parent/child、overlap。
关系不对称Score Asymmetry比如animal的分类器会给cat这个实例高分,但cat分类器不会给animal高分,所以大的不对称性表示了这两个是parent-child关系,具体判断如下:

WordNet和Word2Vec。
WordNet:
Word2Vec:
Word2Vec之前在wikipedia上训练,产生500d的向量,通过cosine similarity计算向量间相似度,因为这是一个非对称的关系,只能通过2.2中的set theroy来确定关系类型
加了一些物理逻辑来提高准确率。
会将2.1得到的Ra,b加个系数n。
如果WordNet中a和b是identity关系,那通过系数n放大阈值T;同样的如果是parent/child关系,会通过系数n缩小阈值T。
MSeg是2020年的一篇分割领域的论文,合并分割领域的几个数据集并进行人工合并标注。
评测方式: 1)将A和B两个数据集都映射到MSeg的空间内,分别建立与MSeg的关系,并手动检查这些关系是否正确。2.1中的图像关系预测几乎都是对的。2)通过MSeg来确定A和B标签的关系,如A标签和MSeg标签相等,且MSeg标签与B标签相等,则A和B标签是相等关系,以此类推parent/child关系等。3)量化标准:通过预测置信率对所有可能的标签对进行排序,并计算PR曲线和AUC。
评测数据集: ADE20k、COCO panoptic、Berkeley Deep Drive
结论: 通过precision-recall曲线表明,基于视觉的比基于语言的好,基于语言的中WordNet比Word2Vec好(因为Word2Vec对于语义相关的标签给予高分)。

