• spacy的每个词token的所有属性


    spacy的每个词token的所有属性

    import spacy
    line="中国有四大发明"
    nlp = spacy.load('zh_core_web_sm')
    doc = nlp(line)
    #此时doc由处理后的每个词对于token组成下面给出token的属性
    #可以使用for token in doc输出这些token的属性
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    属性含义
    token.text原文本(例如:中国)
    token.tag_中国的词性,NR(专有名词)
    token.__len__()文本长度,例如中国返回值是2,有是1,四大发明是4
    token.idx出现在原文本下标,0
    token.dep_依赖关系,例如dep(系统无法识别的依赖关系)
    token.head.text依赖谁,例如这里中国依赖
    token.head.tag_依赖词的词性,例如这里的话是字VE(动词)
    token.set_extension()设置新属性,例如想设置中国是个国家可以用token.set_extension(”国家“,default=True),然后通过token._.hello访问或修改,还可以设置为简单的方法
    token.similarity(doc[2])计算相似度,例如中国token和4大发明doc[2]的相似度为0.0068
    token.nbor(2)返回后面第i个邻居
    token.children返回依赖token的其他token
    token.left返回依赖token的左边的其他token
    token.right返回依赖token的右边的其他token
    token.n_left返回依赖token的左边的其他token数量
    token.n_right返回依赖token的右边的其他token数量
    x=token.subtree返回以token为节点的依赖语法子树的所有token,可以遍历x
    token.doc输出整个原句子段落
    token.sent输出整个与token相关的原句子
    token.text_with_ws输出带尾随空格的文本,中文没有空格一般用不到
    token.orth输出id
    token.left_edge最左边的依赖词
    token.right_edge最右边的依赖词
    token.i第几个token in doc
    token.prefix_token的第一个词
    token.suffix_token的最后一个个词
    token.is_alpha返回是否是字母的bool
    token.is_ascii返回是否是ascii码
    token.is_digit返回是否是数字
    token.is_lower返回是否是小写
    token.is_upper返回是否是大写
    token.is_punct返回是否是标点符号
    token.is_left_punct返回是否为(,[,{等
    token.is_right_punct是否是右括号
    token.is_sent_start是否是句子开始
    token.is_sent_end是否是句子结束
    is_bracket是否是括号
    is_quote是否是引用
    is_currency是否是货币符号
    like_url是否是url
    like_num是否是数字
    lang_什么语言
    sentiment是积极还是消极情感
    from spacy.tokens import Doc, Span, Token
    
    fruits = ["apple", "pear", "banana", "orange", "strawberry"]
    is_fruit_getter = lambda token: token.text in fruits
    has_fruit_getter = lambda obj: any([t.text in fruits for t in obj])
    
    Token.set_extension("is_fruit", getter=is_fruit_getter)
    Doc.set_extension("has_fruit", getter=has_fruit_getter)
    Span.set_extension("has_fruit", getter=has_fruit_getter)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
  • 相关阅读:
    Solidity智能合约事件(event)
    2、IoC 浅识
    【ES专题】ElasticSearch搜索进阶
    面试中的MySQL主从复制|手撕MySQL|对线面试官
    对接保时捷及3PL EDI案例
    Hessian反序列化分析
    多点开花,维也纳国际酒店多家门店荣膺当地十佳酒店好评
    Mac电脑软件开发的优缺点
    力扣labuladong一刷day8共2题
    轻量限制流量?阿里云轻量应用服务器月流量包收费说明
  • 原文地址:https://blog.csdn.net/a1920993165/article/details/127845192