码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • ElasticSearch 进阶(一)


    一、ES之存储结构mapping解读

    ES之存储结构mapping解读

    3.1 字段数据类型

    3.1.1 文本类型

    文本族包括以下字段类型:

    • text,即用于全文本内容(如电子邮件正文或产品描述)的传统字段类型。
    • match_only_text 是 text 的空间优化变体,它禁用评分,并在需要位置的查询上执行较慢。它最适合为日志消息编制索引。

    text 字段接受以下参数:

    curl -XPOST http://localhost:9200/index/_mapping -H 'Content-Type:application/json' -d'
    {
        "properties": {
            "content": {
                "type": "text",
                "analyzer": "ik_max_word",
                "search_analyzer": "ik_smart"
            }
        }
    }'
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    analyzerThe analyzer which should be used for the text field, both at index-time and at search-time (unless overridden by the search_analyzer). Defaults to the default index analyzer, or the standard analyzer.

    二、文本分析(Text analysis)

    2.1 Built-in analyzer reference

    2.1.1 Standard analyzer

    standard 分词器是默认的分词器,如果没有指定其它的分词器,则使用该分词器。
    它提供了grammar based tokenization(基于Unicode文本分割算法,如Unicode标准附录#29所述),并且适用于大多数语言。

    POST /_analyze
    {
      "analyzer": "standard",
      "text": "中华民族伟大复兴"
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5

    standard 分词器接受以下参数:

    • max_token_length:
      最大令牌长度。如果看到的令牌超过了这个长度,则按max_token_length间隔对其进行分割。默认为255

    • stopwords
      预定义的停止词列表,如_english_,或包含停止词列表的数组。默认为_none_。

    • stopwords_path
      包含停止字的文件的路径。

    // 自定义分词器
    PUT /my-index-000001
    {
      "settings": {
        "analysis": {
          "analyzer": {
            "my_english_analyzer": {
              "type": "standard",
              "max_token_length": 5,
              "stopwords": "_english_"
            }
          }
        }
      }
    }
    
    POST /my-index-000001/_analyze
    {
      "analyzer": "my_english_analyzer",
      "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21

    Standard analyzer 包括:

    Tokenizer

    • Standard Tokenizer

    Token Filters

    • Lower Case Token Filter
    • Stop Token Filter (disabled by default)

    2.2 Token filter reference

    如果您需要在配置参数之外定制标准分词器,那么您需要将其重新创建为定制分词器并修改它,通常是通过添加令牌过滤器。

    PUT /standard_example
    {
      "settings": {
        "analysis": {
          "analyzer": {
            "rebuilt_standard": {
              "tokenizer": "standard",
              "filter": [
                "lowercase"       
              ]
            }
          }
        }
      }
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
  • 相关阅读:
    Java基础复习 Day 23
    【Linux】快速配置云服务器(学习用)
    BAT大厂面试的100道考题【算法、源码、架构、中间件、设计模式、网络、项目】,过60分的不到10%
    Baichuan2大模型本地部署
    【问题思考总结】联合概率密度和条件概率密度的化简方法【通过样本空间进行辨析,离连型随机变量】
    Sqoop数据导出第2关:HDFS数据导出至Mysql内
    7年坚定投身“高清头显”,纳德光学聚焦打造高清头显领导品牌
    蜂鸟E203学习笔记(二)--蜂鸟E203总体框架
    深入理解迪米特法则(Law Of Demeter)
    线性代数与编程语言结合 基础
  • 原文地址:https://blog.csdn.net/chinusyan/article/details/127425881
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号