码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 关键短语提取的典型方法


    随着互联网文本相关数据呈指数级增长,如何快速有效地抽取和整理相关关键信息成为一个重要的研究课题。与关键词不同,关键短语可能由多个词组成,其文本语义描述更为丰富,表达更为完整。除此之外,关键短语构成了一个简洁的概念性文档摘要,有助于语义索引、文档聚类和分类等多个任务的效果提升。
    在这里插入图片描述
    其中抽取式短语提取中,无监督提取方法比较典型的有TF-IDF、YAKE、TextRank、SIFRank等,有监督提取方法比较典型的有CRF、BERT-KPE等。

    (1)TF-IDF:TF-IDF是一种很简单但却很有效的方法,常用于信息检索和文本挖掘的常用加权技术。用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

    (2)YAKE:YAKE是一种关键字提取方法,它利用单个文档的统计特征来提取关键字,主要通过五个方面来计算关键词的重要度:是否大写、词的位置、词频、上下文关系、词在多个剧中出现的频率,其优势在于它不依赖与外部语料库、文本文档的长度、语言或领域。与TF-IDF相比,它在单个文档的基础上提取关键字,并且不需要庞大的语料库。

    (3)TextRank:TextRank算法是基于PageRank算法,PageRank算法其中图的节点是网页,而TextRank是词。最原始的PageRank算法是无权重的图,而TextRank是有权重的图,其计算步骤如下:

    a. 预处理:文本分词,然后用标注工具进行标注,获取重要的词性;
    b. 构建图:将处理后的词作为图的节点,边根据这些词是否在一个滑动窗口共现,进行边的连接。初始各节点权重都为1,然后进行迭代;
    c. 计算分值:所有节点权重分值计算完后,选取top个节点,再根据设置的窗口大小,计算更高的n-gram关键词分值,最后根据分值,获取top K个关键词。

    (4)SIFRank:SIFRank比较适合短文本的关键词抽取,而SIFRank+大幅增加了长文本的关键词抽取效果。
    在这里插入图片描述

    a. 人工标注:分词+标词性;
    b. 获取候选关键词列表:利用正则表达式确定名词短语(例如:形容词+名词),将名词短语作为候选关键短语;
    c. 通过预训练语言模型,得到关键词的embedding;
    d. 同样地,得到句子或文档的embedding;
    e. 计算c与d结果的余弦相似度,选取topN作为其最终提取的关键词。

    (5)BERT-KPE:JointKPE 联合采用了两个子网络,一个是分块网络(chunking network)来识别高质量的短语,一个排名网络(ranking network)来学习短语的显著性。JointKPE尤其擅长预测长的关键词,并且擅长提取的这些关键词一部分不是实体,但却是有意义的短语。

    a. 使用BERT将文档D编码成向量H,获得词表征,H=BERT{w1, w2, …,wn},H={h1, h2, …, hn};
    b. 使用CNN融合k个字组成的embedding(上下文),得到相应的n-gram表达;
    c. 使用Chunking network预测该n-gram是否是关键词短语候选;
    d. 使用Ranking network对n-gram表达进行排序;
    e. 对Chunking network和Ranking network进行联合训练

    参考链接:

    [1] https://wuwt.me/2021/11/12/unspervised-keyword-extract/

    [2] https://zhuanlan.zhihu.com/p/126733456

    [3] https://wenge.com/content/details_53_1886.html

    [4] https://blog.csdn.net/BGoodHabit/article/details/108926383

    [5] https://www.researchgate.net/profile/Zhenghao-Liu/publication/340997196_Joint_Keyphrase_Chunking_and_Salience_Ranking_with_BERT/links/5fc60273a6fdcce95269408b/Joint-Keyphrase-Chunking-and-Salience-Ranking-with-BERT.pdf

    [6] https://ieeexplore.ieee.org/abstract/document/8954611

    [7] https://www.sciencedirect.com/science/article/pii/S0020025519308588

    [8] https://aclanthology.org/W04-3252.pdf

    [9] http://web.mit.edu/6.033/2004/wwwdocs/papers/page98pagerank.pdf

    [10] https://blog.csdn.net/init__/article/details/121011012

    [11] https://blog.csdn.net/zephyr_wang/article/details/115525078?ops_request_misc=&request_id=&biz_id=102&utm_term=BERT-KPE&utm_medium=distribute.pc_search_result.none-task-blog-2allsobaiduweb~default-1-115525078.142v35experiment_2_v1,185v2tag_show&spm=1018.2226.3001.4187

  • 相关阅读:
    【Spring】Spring的创建和使用手术刀剖析
    C#中的Dispatcher:Invoke与BeginInvoke的使用
    电脑重装系统word从第二页开始有页眉页脚如何设置
    leetcode-338.比特位计数
    Arduino开发实例-MAX30100 脉搏血氧仪传感器驱动
    基于Vite创建一个Vue2项目
    GPT问答SAP BW
    python每日一练-----电话号码的字母组合
    微信怎么发状态?简单教程,一学就会!
    备份与恢复 CR 介绍
  • 原文地址:https://blog.csdn.net/weixin_45069761/article/details/126034841
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号