码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Re29:读论文 D2GCLF: Document-to-Graph Classifier for Legal Document Classification


    诸神缄默不语-个人CSDN博文目录

    论文标题:D2GCLF: Document-to-Graph Classifier for Legal Document Classification
    NAACL官方下载地址:https://aclanthology.org/2022.findings-naacl.170/
    (这个PDF文档参考文献有缺失内容,我已经发邮件问过作者了,所以如果也有此需要的话可以直接问我要)

    本文是2022年NAACL论文,关注法律领域的文书分类任务。是将每篇文书都构建为了4个图,然后将4个关系图合并,用GAT实现图分类任务。

    本文的分类标签是民事案件的纠纷类型(从400类中选出语义上最相近的20类):
    在这里插入图片描述

    本文提出模型Document-to-Graph Classifier (D2GCLF),从案例中抽取主要当事人之间的关系作为事件,用4张relation graph来代表一篇法律文书。

    文章目录

    • 1. Background
    • 2. D2GCLF
      • 2.1 Motivation和民事诉讼文书数据分析
      • 2.2 建图
        • 2.2.1 Entity-Matter Graph
        • 2.2.2 Entity-Action Graph
        • 2.2.3 Entity-Keyword Graph
        • 2.2.4 SRL Graph
        • 2.2.5 Combined graph
      • 2.3 GNN
    • 3. 实验
      • 3.1 数据集
      • 3.2 baseline
      • 3.3 实验设置
      • 3.4 模型分析

    1. Background

    和传统分类任务不同,不同类的法律文书也可能在语义上高度相似:

    DOCSCRH(商业住房产权纠纷)类型(只有房地产公司能出售商业住房):在这里插入图片描述

    DOCSPHP(房屋买卖合同纠纷)类型:
    在这里插入图片描述

    本文认为,有两点原因造成传统文本分类方法不适用于法律领域:

    1. 传统文本分类没有充分利用文本结构信息。一些过去的方法用句子关系来解决这一问题,但并非所有句子都于预测任务有利。
    2. 法律案例中事实与理由部分最重要,但现在的词贡献图难以表征关键事实,且含大量与预测任务无关的词语。

    本文认为法律文书分类任务最重要在理解事实,本文表示为实体之间的关系。

    2. D2GCLF

    从法律抽取中抽取关键当事人(原告和被告)的事实构成4个图:

    1. Entity-Matter
    2. Entity-Action
    3. Entity-Keyword(主题)
    4. Semantic Role Labeling (SRL):建模更广泛的关系,包括有第三方人事的

    然后组合4张图,过GNN(GAT),得到图表征,作为文书表征,实现分类。

    整体架构图:
    在这里插入图片描述

    2.1 Motivation和民事诉讼文书数据分析

    民事诉讼文书组成部分:

    • Entity information sections:诉讼当事人的信息
    • Facts
    • Reason:原告诉讼理由
      (当事人关系常存于facts和reason部分)
    • Miscellaneous items:相关法律、程序、证据的讨论,与文书类型关系不大,因为同一法律可能应用于不同纠纷中

    组成部分示意图:
    在这里插入图片描述

    不同类型借贷纠纷的示例(DOCPL是私人贷款合同纠纷,例子1讨论借贷行为,例子2、3提到借贷诉讼的目的和原因;DOCS是保人合同纠纷):
    在这里插入图片描述
    如果模型不知道句子之间的关系,可能会忽略关键词guarantor。

    2.2 建图

    2.2.1 Entity-Matter Graph

    matters:识别纠纷类别的重要证据
    常是名词,和原被告出现在同一句,所以本文用POS解析器1抽取每一包含原被告的句子里的名词。为了理解matters上发生的动作,我们也抽取了形容被抽取名词的动词,如table2中的borrowed和dollar。

    文书节点,原告节点A,被告节点B:
    在这里插入图片描述

    2.2.2 Entity-Action Graph

    案例中,纠纷必然对应某些原被告之间的动作。
    本文抽取出现原被告句子中的动词,和每个动作的对象。

    在这里插入图片描述

    2.2.3 Entity-Keyword Graph

    生成原被告相关的主题。
    本文用TextRank抽取含有所有当事人句子中的关键词。

    在这里插入图片描述

    2.2.4 SRL Graph

    (subject, predicate, object)
    predicate谓语
    用LTP工具2从每一句中抽取。

    在这里插入图片描述

    2.2.5 Combined graph

    在这里插入图片描述

    2.3 GNN

    本文用预训练的词嵌入作为初始节点表征,用GAT聚合得到document节点表征,然后后面的就是常规MLP分类模型了。

    3. 实验

    3.1 数据集

    本文算是给出了一部分的数据集?就给了这些:https://drive.google.com/file/d/1bZVv0TPSjIRsRjO0P67v8Y-K-tb-o7IE/view
    在这里插入图片描述

    4000个案例(每类最新200个案例),20类。70%训练集,30%测试集。替换指示代词为原被告真名。

    3.2 baseline

    词嵌入用的是https://github.com/Embedding/Chinese-Word-Vectors
    传统机器学习方法词嵌入用的是https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip
    深度学习方法词嵌入用的是https://huggingface.co/hfl/chinese-roberta-wwm-extlarge
    (为什么词嵌入都不统一呢这个小编也不知道!)

    基于图的方法:构建文档-词图,即直接连接文档节点及其中的词语节点、在文档中共现的词语节点。

    用AUC作为评估指标。

    (用不同词嵌入方法的结果见附件)
    在这里插入图片描述

    3.3 实验设置

    在训练集上交叉验证3取参数。

    3.4 模型分析

    在这里插入图片描述

    在这里插入图片描述


    1. https://pypi.org/project/pkuseg/ 具体使用方法可参考我撰写的博文:常用Python中文分词工具的使用方法 ↩︎

    2. 语言技术平台( Language Technology Plantform | LTP ) ↩︎

    3. 交叉验证相关资料,一时不知道该放在哪里,就先放在这里了:
      Kaggle知识点:交叉验证常见的6个错误:在K的数量上一般选择5;用StratifiedKFold保持标签分布不变,用StratifiedGroupKfold保持按照对照组划分;先划分数据集后采样、做特征提取和转换操作;用TimeSeriesSplit划分时间序列;固定数据划分的随机种子 ↩︎

  • 相关阅读:
    Redis到底是单线程还是多线程
    《痞子衡嵌入式半月刊》 第 102 期
    区块链论文速读A会-ATC 2024 如何降低以太坊存档节点的存储要求?
    PHP入门-Window 下利用Nginx+PHP 搭建环境
    与缓存相关的状态码
    运行的 akrun 会打印信息到控制台,如何取消打印 -- chatGPT
    【2023】某python语言程序设计跟学第八周内容
    Golang Xorm更新Mysql数据库 结构体内的0值数据未更新
    Spring基础之AOP和代理模式
    AD09 PCB拼板制作完整流程
  • 原文地址:https://blog.csdn.net/PolarisRisingWar/article/details/126711341
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号