本书基于 Elasticsearch 2.x 版本,有些内容可能已经过时。 Elasticsearch: 权威指南 » 深入搜索 » 近似匹配 » 多值字段 « 混合起来 越近越好 »
多值字段编辑
对多值字段使用短语匹配时会发生奇怪的事。 想象一下你索引这个文档:
PUT /my_index/groups/1 { "names": [ "John Abraham", "Lincoln Smith"] }
然后运行一个对 Abraham Lincoln
的短语查询:
GET /my_index/groups/_search { "query": { "match_phrase": { "names": "Abraham Lincoln" } } }
令人惊讶的是, 即使 Abraham
和 Lincoln
在 names
数组里属于两个不同的人名, 我们的文档也匹配了查询。 这一切的原因在Elasticsearch数组的索引方式。
在分析 John Abraham
的时候, 产生了如下信息:
john
Position 2: abraham
然后在分析 Lincoln Smith
的时候, 产生了:
lincoln
Position 4: smith
换句话说, Elasticsearch对以上数组分析生成了与分析单个字符串 John Abraham Lincoln Smith
一样几乎完全相同的语汇单元。 我们的查询示例寻找相邻的 lincoln
和 abraham
,
而且这两个词条确实存在,并且它们俩正好相邻, 所以这个查询匹配了。
幸运的是, 在这样的情况下有一种叫做 position_increment_gap
的简单的解决方案, 它在字段映射中配置
。
DELETE /my_index/groups/ PUT /my_index/_mapping/groups { "properties": { "names": { "type": "string", "position_increment_gap": 100 } } }
首先删除映射 groups
以及这个类型内的所有文档。
然后创建一个有正确值的新的映射 groups
。
position_increment_gap
设置告诉 Elasticsearch 应该为数组中每个新元素增加当前词条 position
的指定值。 所以现在当我们再索引 names 数组时,会产生如下的结果:
john
Position 2: abraham
Position 103: lincoln
Position 104: smith
现在我们的短语查询可能无法匹配该文档因为 abraham
和 lincoln
之间的距离为 100 。 为了匹配这个文档你必须添加值为 100 的 slop
。
Getting Started Videos
Starting Elasticsearch Introduction to Kibana Logstash Starter Guide官方地址:https://www.elastic.co/guide/cn/elasticsearch/guide/current/_multivalue_fields_2.html