• Elasticsearch实战(五)---高级搜索 Match/Match_phrase/Term/Must/should 组合使用


    Elasticsearch实战-Match/Match_phrase/term/filter 及Must should 组合并列使用

    1.Match/Match_phrase/term

    1. math:将词分割开来,匹配倒排索引,查找包含任意分割的词的字段。根据你的分词去匹配
      比如 你用的标准分词, 湖北省(湖/北/省) 如果用的IK_smart 分词 就是用的 湖北省(湖北省/湖北省) 如果用的IK_max_word细粒度分词就是 湖北省(湖北省/湖北/省)
    2. term:不分割词,直接匹配倒排索引。 传入的文本原封不动地(不分词)拿去查询。你输入的是湖北省, 如果结果中湖北省武汉市 是查不出来的
    3. match_phrase: 将词分割开来,匹配倒排索引,查找这个短语。 比如湖北省武汉市, 结果中有 湖北省武汉市洪山区, 湖北省武汉市东湖隧道, 这些都能查出来,因为 结果中包含了 湖北省武汉市 整个短语
    4. filter和Query有什么区别 , filter过滤的性能好于查询的性能, 为什么 ? 因为 filter 过滤不计算得分,但是查询计算得分, 而且过滤可以使用缓存,但是查询不会使用缓冲
    1.1 准备数据

    empId:员工id, salary 表示薪资, deptName:部门, address:地址

    POST /testboost/_bulk
    {"index":{"_id": 1}}
    {"empId" : "111","name" : "员工1","age" : 20,"sex" : "男","mobile" : "19000001111","salary":1333,"deptName" : "技术部","address" : "湖北省武汉市洪山区光谷大厦"}
    {"index":{"_id": 2}}
    {"empId" : "222","name" : "员工2","age" : 25,"sex" : "男","mobile" : "19000002222","salary":15963,"deptName" : "销售部","address" : "湖北省武汉市江汉路"}
    {"index":{"_id": 3}}
    { "empId" : "333","name" : "员工3","age" : 30,"sex" : "男","mobile" : "19000003333","salary":20000,"deptName" : "技术部","address" : "湖北省武汉市经济开发区"}
    {"index":{"_id": 4}}
    {"empId" : "444","name" : "员工4","age" : 20,"sex" : "女","mobile" : "19000004444","salary":5600,"deptName" : "销售部","address" : "湖北省武汉市沌口开发区"}
    {"index":{"_id": 5}}
    { "empId" : "555","name" : "员工5","age" : 20,"sex" : "男","mobile" : "19000005555","salary":9665,"deptName" : "测试部","address" : "湖北省武汉市东湖隧道"}
    {"index":{"_id": 6}}
    {"empId" : "666","name" : "员工6","age" : 30,"sex" : "女","mobile" : "19000006666","salary":30000,"deptName" : "技术部","address" : "湖北省武汉市江汉路"}
    {"index":{"_id": 7}}
    {"empId" : "777","name" : "员工7","age" : 60,"sex" : "女","mobile" : "19000007777","salary":52130,"deptName" : "测试部","address" : "湖北省黄冈市边城区"}
    {"index":{"_id": 8}}
    {"empId" : "888","name" : "员工8","age" : 19,"sex" : "女","mobile" : "19000008888","salary":60000,"deptName" : "技术部","address" : "湖北省武汉市江汉大学"}
    {"index":{"_id": 9}}
    {"empId" : "999","name" : "员工9","age" : 40,"sex" : "男","mobile" : "19000009999","salary":23000,"deptName" : "销售部","address" : "河南省郑州市郑州大学"}
    {"index":{"_id": 10}}
    {"empId" : "101010","name" : "张湖北","age" : 35,"sex" : "男","mobile" : "19000001010","salary":18000,"deptName" : "测试部","address" : "湖北省武汉市东湖高新"}
    {"index":{"_id": 11}}
    {"empId" : "111111","name" : "王河南","age" : 61,"sex" : "男","mobile" : "19000001011","salary":10000,"deptName" : "销售部","address" : "河南省开封市河南大学"}
    {"index":{"_id": 12}}
    {"empId" : "121212","name" : "张大学","age" : 26,"sex" : "女","mobile" : "19000001012","salary":1321,"deptName" : "测试部","address" : "河南省开封市河南大学"}
    {"index":{"_id": 13}}
    {"empId" : "131313","name" : "李江汉","age" : 36,"sex" : "男","mobile" : "19000001013","salary":1125,"deptName" : "销售部","address" : "河南省郑州市二七区"}
    {"index":{"_id": 14}}
    {"empId" : "141414","name" : "王技术","age" : 45,"sex" : "女","mobile" : "19000001014","salary":6222,"deptName" : "测试部","address" : "河南省郑州市金水区"}
    {"index":{"_id": 15}}
    {"empId" : "151515","name" : "张测试","age" : 18,"sex" : "男","mobile" : "19000001015","salary":20000,"deptName" : "技术部","address" : "河南省郑州高新开发区"}
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    1.2 Match 用法

    Match就是匹配, 切分关键字,输入 湖北省, 切分 湖/北/省

    //查询地址 中包含湖北省
    get /testboost/_search
    {
      "query":{
       "match": {
         "address": "湖北省"
       }
      }
    }
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    所以查询结果 把 河南 “省” 带省的也查询出来了
    在这里插入图片描述

    1.3 Match_phrase 用法

    如果我想查 “湖北省” 不要 查 省的 结果中不带 河南省的 那么就要 用到 match_phrase 把查询条件当作 短语来查找了

    //把湖北省当作 短语不分词 模糊查询 ,比如 湖北省xxx ,湖北省 都查出来
    get /testboost/_search
    {
      "query":{
       "match_phrase": {
         "address": "湖北省"
       }
      }
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9

    可以看到 查询结果都是 湖北的 ,是没 河南省信息的, 包含湖北省的才会查出来
    在这里插入图片描述

    1.4 term 用法

    按照官方文档 term应该是不分词就查询的, 所以我们 直接把 整个地址 当作查询 就行

    //term不分词, 直接查 整个地址是 湖北省武汉市经济开发区 的,结果查不出来,为什么?
    get /testboost/_search
    {
      "query":{
       "term": {
         "address": "湖北省武汉市经济开发区"
       }
      }
    }
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    可以看到 是没有数据的,为什么 , 明明我的数据 中有 地址是 “湖北省武汉市经济开发区” 的数据的?
    在这里插入图片描述

    !!! 使用term去查询,其实是拿查询条件和被分词的索引关键字一一匹配,
    我们的address是个text类型的字段,被分词器分词了,并且 湖北省武汉市经济技术开发区 就被 分成了 一个个字的 分词 , 需要你在构建索引的时候 插入mapping 指定 ,确保字段是no analyzed的。 建索引的时候要注意

    在这里插入图片描述

    既然这样, term根据 索引去查询, 我的索引又是单个字的, 我试试单个字查询有没有问题, 搜"区" 是没问题的
    在这里插入图片描述

    2.Must / Should 组合并列使用

    2.1 A & B & (C || D) 错误写法

    我想搜 地址必须湖北省,性别男 并且 部门是技术部 或者 销售部 操作 就是 A && B && ( C || D) 这种查询应该如何查
    地址 must操作, 技术部或者测试部 should操作
    注意 此时 Must 条件和 Should 是同等级别的 ,

    #  执行错误示范 这个是  address=湖北省 and sex=男 or 部门=技术部/销售部, 会把 测试部的人拉出来, 说明should 不生效
    # 此时 must 和 should 是同等级别的 
    get /testboost/_search
    {
      "query":{
        "bool": {
          "must": [
            {
              "match_phrase": {
                "address": "湖北省"
              }
            },
            {
              "match": {
                "sex": "男"
              }
            }
          ],
          "should": [
            {
              "match_phrase": {
                "deptName": "销售部"
              }
            },
            {
              "match_phrase": {
                "deptName": "技术部"
              }
            }
          ]
        }
      }
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33

    错误的查询结果 , 为什么should 不生效呢? 为什么把 测试部们查了出来, 明明should 写了 只查满足 部门=销售部或技术部的,但是结果把测试部查了出来
    在这里插入图片描述

    所以 应该怎么写?结论就是 应该把 should 放到 Must中 试一试

    2.2 A & B & (C || D) 正确写法 Should放入Must内层中

    湖北省 && 男生 && (技术部 || 销售部) ? 如何实现

    get /testboost/_search
    {
      "query":{
      "bool": {
        "must": [
          {
            "match_phrase": {
              "address": "湖北省"
            }
          },      
          {
            "match": {
              "sex": "男"
            }
          },
          
          //注意 查询 should 是在must 内部写的,should要用 bool结构
          {
            "bool": {
              "should": [
                {
                  "match_phrase": {
                    "deptName": "技术部"
                  }
                },
                {
                  "match_phrase": {
                    "deptName": "销售部"
                  }
                }
              ]
            }
            
          }
        ]
      }
    }
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38

    看下结果, 只有 湖北省且 男且 部门是销售部或技术部 的才查出来, 结果正确
    注意 此时 should是放在 must 内层的, 和 湖北省, 男 , 是同等级别 ,这就是区别
    在这里插入图片描述

    结果正常

    2.3 A & B & (C || D) 使用 Filter 实现

    湖北省 && 男生 && (技术部 || 销售部) ?filter如何实现 其实就是 先查出来 湖北省 && 男生的 所有部门的信息
    然后过滤 filter 过滤出来 是技术部或者销售部的 信息

    # 湖北省 && 男生 && (技术部 || 销售部) filter 先用 must 查 湖北省and男 结果,然后过滤 技术部或者销售部的人
    get /testboost/_search
    {
      "query":{
          "bool": {
            "must": [
              {
                "match_phrase": {
                  "address": "湖北省"
                }
              },
                {
                "match_phrase": {
                  "sex": "男"
                }
              }
            ],
            "filter": [
              {
                  "bool": {
                    "should": [
                      {
                        "match_phrase": {
                          "deptName": "技术部"
                        }
                      },
                       {
                        "match_phrase": {
                          "deptName": "销售部"
                        }
                      }
                    ]
                  }
                }
            ]
          }
    }
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38

    看下结果, 只有 湖北省且 男且 部门是销售部或技术部 的才查出来,通过filter 也是能够得出正确结果的
    在这里插入图片描述

    结果正常


    至此 我们Match Match_phrase 及Term 使用和区别 也讲了, Must及should 组合并列使用的 如何正确查出结果 也讲了, 下一篇 我们将 如何排名

  • 相关阅读:
    API接口自动化测试
    八大排序-01
    移动通信:分集技术(时间分集,频率分集,空间分集,SC,MRC,EGC)学习笔记
    java 数组
    【代码随想录】链表专栏(Java)
    React之JSX的使用规则及简单代码实例
    进军DevOps,Jenkins+GitHub实现自动化部署,一键上传,自动部署!
    layui tree监控选中事件,同步选中和取消
    跨语言调用C#代码的新方式-DllExport
    Python之Django
  • 原文地址:https://blog.csdn.net/u010134642/article/details/125459931