• 【论文精读】The Missing Link: Finding label relations across datasets


    一、背景 & 概要

    和之前其他论文工作不同的是,论文的主要目的是探究不同数据集间标签的关系,而不是将其合并。论文中提到的关系是identity、parent/child、overlap。为了探究这些关系,提出了几种方法:基于language、基于vision、基于两者。
    关系:

    1. identity:相等。一个数据集中的标签a和另一个数据集中的标签b有相同的视觉概念,如ADE20k中的sofa和COCO中的couch。
    2. Parent/child:子标签的关系,比如ADE20k中的animal和COCO中的cow
    3. Overlap:两个标签有重叠但不相同,比如ADE20k中的floor和COCO中的rug-merged,都描述了覆盖地面的地毯,但floor包括了木质地板这种不属于rug-merged的,rug-merged包括了不在地上的地毯。

    二、方法

    探索关系的几种方式

    2.1 视觉方式

    在这里插入图片描述
    在数据集A上训练的pA预测数据集B的实例ib,预测标签名a得到预测集合pA(a|ib),共预测了nb个实例,将这些probability平均一下得到Sa->b, 同样的方法得到Sb->a,然后两者平均得到最终分数Ra,b=(Sa->b+Sb->a)/2。通过限制阈值Ra,b得到标签a和标签b的关系。
    使用了两种不同的预测模型pA(a|ib):
    Pixel Probabilities:使用A数据集上的分割模型预测B。我们平均实例所有像素的概率值。
    Visual Embeddings:A和B使用相同的分割模型(A上训练的),其模型不带分类头,提取A和B上的feature。
    训练细节这里不做表述。

    2.2 关系类型

    理论集合set theory 如一中表述,这里关系是基于两个假设,1、标签a和标签b中仅有一种关系(如果有实例会被预测为a和b)2、相同数据集的标签是无交集的
    关系为identity、parent/child、overlap。
    关系不对称Score Asymmetry比如animal的分类器会给cat这个实例高分,但cat分类器不会给animal高分,所以大的不对称性表示了这两个是parent-child关系,具体判断如下:
    在这里插入图片描述

    2.3 使用语言预测关系类型

    WordNet和Word2Vec。
    WordNet

    1. 如果a和b可以映射到同一个同义词集,则为identity相等关系。
    2. 如果a的同义词集是b的同义词集的祖先,则a是b的parent,即b是a的child。
    3. 如果a和b共享至少一个后代,则他们处于重叠关系,比如WordNet中truck和car重叠,因为他们都有一个后代minivan。
    4. 其他a和b情况,估计两个同义词集之间的路径相似性,基于他们最近的共同祖先的接近程度。如果分类a和b有关系就加1,会产生一个稠密矩阵R(会发现identity强度为2,parent/child关系为1到2之间,其余在0和1之间)

    Word2Vec
    Word2Vec之前在wikipedia上训练,产生500d的向量,通过cosine similarity计算向量间相似度,因为这是一个非对称的关系,只能通过2.2中的set theroy来确定关系类型

    2.4 视觉和文本一起探索关系

    加了一些物理逻辑来提高准确率。
    会将2.1得到的Ra,b加个系数n。
    如果WordNet中a和b是identity关系,那通过系数n放大阈值T;同样的如果是parent/child关系,会通过系数n缩小阈值T。

    3. 评测

    MSeg是2020年的一篇分割领域的论文,合并分割领域的几个数据集并进行人工合并标注。
    评测方式: 1)将A和B两个数据集都映射到MSeg的空间内,分别建立与MSeg的关系,并手动检查这些关系是否正确。2.1中的图像关系预测几乎都是对的。2)通过MSeg来确定A和B标签的关系,如A标签和MSeg标签相等,且MSeg标签与B标签相等,则A和B标签是相等关系,以此类推parent/child关系等。3)量化标准:通过预测置信率对所有可能的标签对进行排序,并计算PR曲线和AUC。
    评测数据集: ADE20k、COCO panoptic、Berkeley Deep Drive
    结论: 通过precision-recall曲线表明,基于视觉的比基于语言的好,基于语言的中WordNet比Word2Vec好(因为Word2Vec对于语义相关的标签给予高分)。
    在这里插入图片描述
    在这里插入图片描述

  • 相关阅读:
    T1028:字符菱形(信息学一本通C++)
    解密JavaScript的异步机制:打破单线程限制,提升性能与用户体验
    二分算法(2)
    map/set疑难一网打尽(含经典面试)
    算法训练 第三周
    图像也是一门语言?微软提出19亿参数的超大通用模型BEIT-3,刷榜多个CV和多模态任务!
    洛谷刷题C语言:PET、KEMIJA、PROSJEK、KORNISLAV、RESETO
    (185)Verilog HDL:设计一个移位功能Lfsr5
    ArrayList源码解析
    Java调用方法,键盘录入数据,分别求出长方形的面积和长方体的体积。
  • 原文地址:https://blog.csdn.net/joyce_peng/article/details/125958161