伍佰目录 短网址
  当前位置:海洋目录网 » 站长资讯 » 站长资讯 » 文章详细 订阅RssFeed

ElasticSearch 6.2 Mapping参数说明及text类型字段聚合查询配置

来源:网络转载 浏览:39187次 时间:2023-08-19

背景:

  由于本人使用的是6.0以上的版本es,在使用发现很多中文博客对于mapping参数的说明已过时。ES6.0以后有很多参数变化。

  现我根据官网总结mapping最新的参数,希望能对大家有用处。

 

  es6.0与之前版本区别:

    -新增字段: eager_global_ordinals

    -删除的字段: include_in_all

  ※特别提示:

    1,建议大家创建索引的时候指定mapping(用到特定分词器,规划字段是否被索引来节省空间等)

    2,mapping创建并插入数据后就无法进行更改了!所以要对需求考虑全面:例如对于text类型字段需要聚合查询(类似group by)对数据进行统计分析,

             就需要设置fielddata为true 和fields字段才能进行聚合操作(此处详解请看下面的内容2)

    3,如果必须更改字段属性只能进行reindex,进行重新建立索引再将doc导入

 

1,es 6.2 mapping详细说明



{

   "type" : "text", #是数据类型一般文本使用text(可分词进行模糊查询);keyword无法被分词(不需要执行分词器),用于精确查找


    "analyzer" : "ik_max_word", #指定分词器,一般使用最大分词:ik_max_word

    

    "normalizer" : "normalizer_name", #字段标准化规则;如把所有字符转为小写;具体如下举例


    "boost" : 1.5, #字段权重;用于查询时评分,关键字段的权重就会高一些,默认都是1;另外查询时可临时指定权重


    "coerce" : true, #清理脏数据:1,字符串会被强制转换为整数 2,浮点数被强制转换为整数;默认为true


    "copy_to" : "field_name", #自定_all字段;指定某几个字段拼接成自定义;具体如下举例


    "doc_values" : true, #加快排序、聚合操作,但需要额外存储空间;默认true,对于确定不需要排序和聚合的字段可false


    "dynamic" : true, #新字段动态添加 true:无限制 false:数据可写入但该字段不保留 'strict':无法写入抛异常


    "enabled" : true, #是否会被索引,但都会存储;可以针对一整个_doc


    "fielddata" : false, #针对text字段加快排序和聚合(doc_values对text无效);此项官网建议不开启,非常消耗内存


    "eager_global_ordinals": true, #是否开启全局预加载,加快查询;此参数只支持text和keyword,keyword默认可用,而text需要设置fielddata属性

    

    "format" : "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis" ,#格式化 此参数代表可接受的时间格式 3种都接受


    "ignore_above" : 100, #指定字段索引和存储的长度最大值,超过最大值的会被忽略


    "ignore_malformed" : false ,#插入文档时是否忽略类型 默认是false 类型不一致无法插入


    "index_options" : "docs" ,

    # 4个可选参数

    # docs(索引文档号),

    # freqs(文档号 + 词频),

    # positions(文档号 + 词频 + 位置,通常用来距离查询),

    # offsets(文档号 + 词频 + 位置 + 偏移量,通常被使用在高亮字段)

    # 分词字段默认是position,其他的默认是docs


    "index" : true, #该字段是否会被索引和可查询 默认true


    "fields": {"raw": {"type": "keyword"}} ,#可以对一个字段提供多种索引模式,使用text类型做全文检索,也可使用keyword类型做聚合和排序


    "norms" : true, #用于标准化文档,以便查询时计算文档的相关性。建议不开启


    "null_value" : "NULL", #可以让值为null的字段显式的可索引、可搜索


    "position_increment_gap" : 0 ,#词组查询时可以跨词查询 既可变为分词查询 默认100


    "properties" : {}, #嵌套属性,例如该字段是音乐,音乐还有歌词,类型,歌手等属性


    "search_analyzer" : "ik_max_word" ,#查询分词器;一般情况和analyzer对应

    

    "similarity" : "BM25",#用于指定文档评分模型,参数有三个:

    # BM25 :ES和Lucene默认的评分模型

    # classic :TF/IDF评分

    # boolean:布尔模型评分


    "store" : true, #默认情况false,其实并不是真没有存储,_source字段里会保存一份原始文档。

    # 在某些情况下,store参数有意义,比如一个文档里面有title、date和超大的content字段,如果只想获取title和date


    "term_vector" : "no" #默认不存储向量信息,

    # 支持参数yes(term存储),

    # with_positions(term + 位置),

    # with_offsets(term + 偏移量),

    # with_positions_offsets(term + 位置 + 偏移量)

    # 对快速高亮fast vector highlighter能提升性能,但开启又会加大索引体积,不适合大数据量用

}


normalizer举例:

{

  "settings": {

    "analysis": {

      "normalizer": {

        "my_normalizer": {

          "type": "custom",

          "char_filter": [],

          "filter": ["lowercase", "asciifolding"]

        }

      }

    }

  },

  "mappings": {

    "type": {

      "properties": {

        "foo": {

          "type": "keyword",

          "normalizer": "my_normalizer"

        }

      }

    }

  }

}


copy_to举例:

{

  "mappings": {

    "my_type": {

      "properties": {

        "first_name": {

          "type": "text",

          "copy_to": "full_name"

        },

        "last_name": {

          "type": "text",

          "copy_to": "full_name"

        },

        "full_name": {

          "type": "text"

        }

      }

    }

  }

}


2,text类型字段进行聚合查询(count(*) group by)

需求:对机构字段既可以进行模糊查询,又可以按照字段全名进行聚合统计

实现:


-设置字段参数

"institution": {

              "type": "text",

              "analyzer": "ik_max_word",

              "search_analyzer": "ik_max_word",

              "fielddata" : true,

              "fields": {"raw": {"type": "keyword"}}#如果不设置keyword索引在聚合时将会使用已分解后的词。例如:想用“国泰君安”聚合,结果使用“国泰”,“君安”聚合

}


-查询时aggs参数

body = {

            "query": {

                "range": {

                        "time": {

                                "gte": '2018-02-01'

                                }

                        }

                    },

            "aggs": {

                "institution_count": {

                    "terms": {"field": "institution.raw"},#使用keyword分组

                    "aggs": {

                    }

    

                }

    

            }

       }


https://www.cnblogs.com/dxf813/p/8447467.html


  推荐站点

  • At-lib分类目录At-lib分类目录

    At-lib网站分类目录汇集全国所有高质量网站,是中国权威的中文网站分类目录,给站长提供免费网址目录提交收录和推荐最新最全的优秀网站大全是名站导航之家

    www.at-lib.cn
  • 中国链接目录中国链接目录

    中国链接目录简称链接目录,是收录优秀网站和淘宝网店的网站分类目录,为您提供优质的网址导航服务,也是网店进行收录推广,站长免费推广网站、加快百度收录、增加友情链接和网站外链的平台。

    www.cnlink.org
  • 35目录网35目录网

    35目录免费收录各类优秀网站,全力打造互动式网站目录,提供网站分类目录检索,关键字搜索功能。欢迎您向35目录推荐、提交优秀网站。

    www.35mulu.com
  • 就要爱网站目录就要爱网站目录

    就要爱网站目录,按主题和类别列出网站。所有提交的网站都经过人工审查,确保质量和无垃圾邮件的结果。

    www.912219.com
  • 伍佰目录伍佰目录

    伍佰网站目录免费收录各类优秀网站,全力打造互动式网站目录,提供网站分类目录检索,关键字搜索功能。欢迎您向伍佰目录推荐、提交优秀网站。

    www.wbwb.net