• Elasticsearch索引数据的路由规则与自定义路由分发


    Elasticsearch通过路由规则将数据高效地分布到各个分片中,实现数据均衡、查询优化及故障恢复。本文将深入探讨索引数据路由的原理,并通过示例展示如何使用自定义路由策略分发数据。

    索引数据路由原理

    默认路由规则

    默认情况下,Elasticsearch使用以下公式计算文档应被写入的分片编号:

    shard_num = hash(_routing) % num_primary_shards
    
    • 1

    其中:

    • _routing:默认为文档的_id,也可以通过请求参数或映射设置指定。
    • num_primary_shards:索引的主分片数。

    通过哈希函数和模运算,确保数据在分片间均匀分布,有利于数据均衡、容错和扩展。

    分区路由

    虽然可以手动指定路由值以减少查询涉及的分片数,但这可能导致大量数据集中到少数分片,造成分片大小不均。为此,Elasticsearch提供索引分区配置,允许使用同一路由值的数据分发到多个分片。在索引设置中启用此功能:

    "index.routing_partition_size": N
    
    • 1

    此时,路由计算公式变为:

    shard_num = (hash(_routing) + hash(_id) % routing_partition_size) % num_primary_shards
    
    • 1

    通过引入_id哈希值和routing_partition_size参数,使得具有相同路由值的文档更均匀地分布到多个分片。

    使用自定义路由分发数据

    在某些场景下,可能需要根据特定字段(如用户ID、租户ID等)进行数据路由,以实现数据隔离、优化查询性能或简化备份恢复。下面展示如何使用自定义路由策略分发数据。

    创建索引并设置自定义路由

    首先,创建一个名为person的索引,设置3个主分片和1个副本分片,并要求在写入文档时必须提供路由值:

    PUT person
    {
      "settings": {
        "number_of_shards": "3",
        "number_of_replicas": "1"
      },
      "mappings": {
        "_routing": {
          "required": true
        }
      }
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12

    新增数据

    向索引中写入一条带有自定义路由值(如“zhangsan”)的文档,并立即刷新索引以确保数据可查:

    POST person/_doc/1?routing=zhangsan&refresh=true
    {
      "id": "1",
      "name": "zhangsan",
      "subject": "语文",
      "score": 100
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    查询数据

    由于数据写入时使用了自定义路由值,查询时也必须提供相同的路由值,否则会导致查询失败:

    GET person/_doc/1?routing=zhangsan
    
    • 1

    更新数据

    更新文档时同样需要指定路由值,以确保操作作用于正确的分片:

    POST person/_update/1?routing=zhangsan&refresh=true
    {
      "doc": {
        "score": 120
      }
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    路由优化查询

    在检索数据时,提供路由值可以跳过无关分片,减少资源消耗并加速查询:

    GET person/_search?routing=zhangsan
    {
      "query": {
        "match_all": {}
      }
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    查看路由对应分片

    若需确定某个路由值对应的分片信息,可以使用_search_shards REST端点:

    GET person/_search_shards?routing=zhangsan
    
    • 1

    删除数据

    删除文档时同样需要指定路由值:

    DELETE person/_doc/1?routing=zhangsan
    
    • 1

    总结而言,Elasticsearch通过路由规则有效地管理和分发索引数据,支持自定义路由策略以满足特定应用场景的需求。理解和熟练运用数据路由机制,有助于优化Elasticsearch集群的性能和稳定性。

  • 相关阅读:
    CSRF漏洞
    【IC设计】边沿检测电路(上升沿、下降沿、双沿,附带源代码和仿真波形)
    编码命名方式知多少
    多维数据驱动的粮食安全分析与智能决策系统研究与实践
    Undefined symbols for architecture arm64
    HK32F030MF4P6 EEPROM例程
    刷题10_30
    Premiere Elements 2024(PR简化版)直装版
    2020,XLNet: Generalized Autoregressive Pretraining for Language Understanding
    C/C++航空客运订票系统
  • 原文地址:https://blog.csdn.net/qq_29752857/article/details/138194560