【论文精读】The Missing Link: Finding label relations across datasets

【论文精读】The Missing Link: Finding label relations across datasets
一、背景 & 概要

和之前其他论文工作不同的是，论文的主要目的是探究不同数据集间标签的关系，而不是将其合并。论文中提到的关系是identity、parent/child、overlap。为了探究这些关系，提出了几种方法：基于language、基于vision、基于两者。
关系：
1. identity：相等。一个数据集中的标签a和另一个数据集中的标签b有相同的视觉概念，如ADE20k中的sofa和COCO中的couch。
2. Parent/child：子标签的关系，比如ADE20k中的animal和COCO中的cow
3. Overlap：两个标签有重叠但不相同，比如ADE20k中的floor和COCO中的rug-merged，都描述了覆盖地面的地毯，但floor包括了木质地板这种不属于rug-merged的，rug-merged包括了不在地上的地毯。
二、方法

探索关系的几种方式

 2.1 视觉方式

在数据集A上训练的p_A预测数据集B的实例i_b，预测标签名a得到预测集合p_A(a|i_b)，共预测了n_b个实例，将这些probability平均一下得到S_a->b, 同样的方法得到S_b->a，然后两者平均得到最终分数R_a,b=(S_a->b+S_b->a)/2。通过限制阈值R_a,b得到标签a和标签b的关系。
使用了两种不同的预测模型p_A(a|i_b)：
Pixel Probabilities：使用A数据集上的分割模型预测B。我们平均实例所有像素的概率值。
Visual Embeddings：A和B使用相同的分割模型（A上训练的），其模型不带分类头，提取A和B上的feature。
训练细节这里不做表述。

2.2 关系类型

理论集合set theory 如一中表述，这里关系是基于两个假设，1、标签a和标签b中仅有一种关系（如果有实例会被预测为a和b）2、相同数据集的标签是无交集的
关系为identity、parent/child、overlap。
关系不对称Score Asymmetry比如animal的分类器会给cat这个实例高分，但cat分类器不会给animal高分，所以大的不对称性表示了这两个是parent-child关系，具体判断如下：

2.3 使用语言预测关系类型

WordNet和Word2Vec。
WordNet：
1. 如果a和b可以映射到同一个同义词集，则为identity相等关系。
2. 如果a的同义词集是b的同义词集的祖先，则a是b的parent，即b是a的child。
3. 如果a和b共享至少一个后代，则他们处于重叠关系，比如WordNet中truck和car重叠，因为他们都有一个后代minivan。
4. 其他a和b情况，估计两个同义词集之间的路径相似性，基于他们最近的共同祖先的接近程度。如果分类a和b有关系就加1，会产生一个稠密矩阵R（会发现identity强度为2，parent/child关系为1到2之间，其余在0和1之间）
Word2Vec：
Word2Vec之前在wikipedia上训练，产生500d的向量，通过cosine similarity计算向量间相似度，因为这是一个非对称的关系，只能通过2.2中的set theroy来确定关系类型

 2.4 视觉和文本一起探索关系

加了一些物理逻辑来提高准确率。
会将2.1得到的R_a,b加个系数n。
如果WordNet中a和b是identity关系，那通过系数n放大阈值T；同样的如果是parent/child关系，会通过系数n缩小阈值T。

3. 评测

MSeg是2020年的一篇分割领域的论文，合并分割领域的几个数据集并进行人工合并标注。
评测方式： 1）将A和B两个数据集都映射到MSeg的空间内，分别建立与MSeg的关系，并手动检查这些关系是否正确。2.1中的图像关系预测几乎都是对的。2）通过MSeg来确定A和B标签的关系，如A标签和MSeg标签相等，且MSeg标签与B标签相等，则A和B标签是相等关系，以此类推parent/child关系等。3）量化标准：通过预测置信率对所有可能的标签对进行排序，并计算PR曲线和AUC。
评测数据集： ADE20k、COCO panoptic、Berkeley Deep Drive
结论： 通过precision-recall曲线表明，基于视觉的比基于语言的好，基于语言的中WordNet比Word2Vec好（因为Word2Vec对于语义相关的标签给予高分）。
相关阅读:
【GIT版本控制】--项目管理与工具
 工业物联网关-序
 MATLAB中plotmatrix函数用法
 一站式DevOps真的能提速增效吗？TVP吐槽大会邀您来验证
 【2023年11月第四版教材】第16章《采购管理》（第二部分）
linux debian8.2系统安装mysql
MYSQL 按照身份证筛选年龄和性别
 CSS 之 z-index 属性详解
 网络基础（第一节）
AndroidStudio编译很慢问题解决
原文地址：https://blog.csdn.net/joyce_peng/article/details/125958161

一、背景 & 概要

二、方法

2.1 视觉方式

2.2 关系类型

2.3 使用语言预测关系类型

2.4 视觉和文本一起探索关系

3. 评测