• 论文:OIE@OIA: an Adaptable and Efficient Open Information Extraction Framework


    OIE@OIA: an Adaptable and Efficient Open Information Extraction Framework

    OIE task

    OIE2016、Re-OIE2016、CaRB
    在解决OIE任务时,有两种主流的方法,一是基于规则的方法,一是基于端到端的学习方法。

    论文核心思想

    将一个句子解析为OIA graph,然后,采用简单的规则,将OIA graph适用于不同的open information extraction任务。
    open information annotation graph(OIA)是由句子中的phrase组成的。

    论文架构

    在这里插入图片描述
    论文框架由两部分组成,一是OIA generator,二是adaptor OIE。

    数据标注

    由于目前没有OIA数据集,作者自己标注了一个OIA数据集,包含了12543个train samples,2002个development samples和2077个test samples。(三种节点类型:constant、predicate和function)
    统计数据:train/dev/test samples,每个sample都是sentence-graph pair。
    在标注上,利用了辅助注释系统,使用现有的基于规则的 OIA 系统为每个输入句子生成一个初始 OIA 图。对于节点类型初始化,我们将短语与 English-EWT v2.4 中的词性标签对齐,并根据中心词的词性标签分配OIA graph中的层次类型。然后我们为注释者开发了一个注释工具,以便轻松地修改适应的图形。
    adaptor OIE部分是为每个OIE任务建立简单的rule,完成信息抽取。
    质量控制上,**数据标注由三名语言学研究生/博士生完成。两个注释者首先标记每个样本。**如果有不同意见,将由第三位注释者参与讨论和投票。两个注释者的初始同意率约为 80%,讨论后(无需投票)最终同意率高于 93%。其余 7% 数据的标注通过投票获得。

    模型训练

    现在的预训练模型多是基于token级别的,但是,OIA graph是基于短语层级的,因此,需要,做一个转换。
    word_OIA graphs:是采用bert模型,得到s=[w1,w2,…wn]的represention的。
    在node attribute learning时,采用的是MLP 分类器。
    node之间的边学习,分为两步,第一步是确定两个节点之间是否有边,第二步是确定边的类型。
    关于一条边的start 和end node的学习:两个MLP层。
    节点的表示:在这里插入图片描述
    节点属性的计算

    在这里插入图片描述
    在这里插入图片描述

    节点之间存在边的概率计算:

    在这里插入图片描述
    loss函数:
    在这里插入图片描述
    节点之间label的计算:
    在这里插入图片描述

    总的损失函数

    在这里插入图片描述

    word 图构建时,采用的greedy search的策略,选择边中的概率值>0.5中最大的边,然后,识别冲突的边,将edge_label的概率设为0,之后,重复上述过程,直到所有的边的类型都被设置为止。可能会出现一些无连接的sub-graphs,处理方式是选择edge概率分值的edge,连接到sub-graph中。
    word graph转为OIA graph,

    我们首先收集由 next_word 和相关弧(prev_arg,pos_arg)链接的 Word-OIA 图中的节点,以形成 OIA 图中的节点。然后我们识别边缘upper_parataxis等特殊结构,并将Parataxis和Missing等特殊节点添加到OIA图中。

    转换实例

    在这里插入图片描述
    在这里插入图片描述

    文中定义的OIA graph

    细粒度的实体type:
    在这里插入图片描述
    在这里插入图片描述
    根据下一章节中,adaptor部分的规则,可以解析得到:

    1. Verbal: the extracted facts using the rule are <“told”, “Ms. Lee, the
      headmaster”, “Lily and Jimmy”, “she is responsible for this”> and
      <“is responsible”, “she”, “for this”>
    2. VerbalPip: This produces <“is responsible for”, “she”, “this”> for the sample
      in Figure 2 instead of <“is responsible”, “she”, “for this”>.
    3. CoordSep: is separated into and .
    adaptor部分的规则

    Verbal:OIA图中的verbal node,选择verbal node子树中的child作为fact的argument。
    VerbalPiP:对于每个带有介词子节点的动词节点,我们将子节点合并到动词节点中,并将动词规则应用于生成的 OIA 图。(for each verbal node
    with a prepositional child, we merge the child into the verbal node and apply the Verbal rule on the resultant OIA graph)
    Appos(be):在OIA graph中类似于e 的,更改为
    CoordSep:协调参数被分成多个事实元组。( is separated into and
    论文在不同数据集上,采用OIE规则,如下:
    • Adaptor@OIE 2016 = Verbal + CoordSep;
    • Adaptor@Re-OIE 2016 = Verbal + Appos([is]);
    • Adaptor@CaRB = VerbalPiP + Appos(is) +CoordSep.

    当前论文中的局限性

    OIE@OIA 管道没有分离复合名词短语,使其无法提取复合名词短语中不同名词之间的名词关系(Yahya et al., 2014)。这是因为当前的 OIA 图是短语级别的图,并且将名词短语作为单个节点。举个例子,“美国总统”将在我们的 OIA 图中形成一个单一的节点,它无法根据该图识别“总统”和“美国”之间的关系。我们把这个问题留作我们未来的工作。

    错误分析

    总结下来,就是不确定性和冲突性。

    (1)长尾word和edge
    (2)粒度问题。节点的粒度或边界在预测结果中可能存在争议。例如,短语“turn out to be”可以是谓词,但“turn out”和“to be”形成嵌套关系也是有意义的。这样的粒度问题在谓词节点和常量节点中都会导致大约 25% 的错误。挖掘成语可以通过精细化的策略进一步明确表达的边界。这属于我们未来的工作
    (3)模棱两可的修改。介词短语可用于在其上下文中修饰名词或动词。这种模糊性导致了大约 17% 的图级错误。例如,句I love all the roles in this play,介词短语in this play是所有角色的修饰语。因此,它们应该在ground truth OIA grap的同一个名词节点中

    总结

    这篇文章提出了一种架构,用于不同数据集的信息抽取结构,但是,实用性,感觉空间不大。
    是在统一的OIA graph的基础,设立OIE规则,提取出对应的知识。
    但是,在OIA graph 构建上,是由标注数据集的,而目前,大多领域没有这类数据集。
    所以,OIA graph构建,就是第一个问题。
    没有数据集就是最大的问题。

    至于OIE,是短语级别的规则设置,这对于细粒度的信息抽取,似乎并没有太友好,虽然,也提到,可以将短语设为更为细粒度的表示的潜力,但数据集,依旧没有。
    总体感觉,不太友好。
    但大家还是在统一范式上,下的功夫。

  • 相关阅读:
    Redis介绍、安装与初体验
    java 企业工程管理系统软件源码 自主研发 工程行业适用
    推荐一个好用的微信、支付宝等Rust三方服务框架
    【Mybatis】搭建一个Mybatis框架需要做什么
    工作效率-十五分钟让你快速学习Markdown语法到精通排版实践备忘
    知识图谱从入门到应用——知识图谱的应用
    玄机平台应急响应—apache日志分析
    【NIPS 2019】PVCNN:用于高效3D深度学习的点-体素 CNN
    Mybatis传入参数字符串分割成数组作为条件遍历不用in不用in
    为何电脑要设置网络掩码?
  • 原文地址:https://blog.csdn.net/Hekena/article/details/126496983