本书基于 Elasticsearch 2.x 版本,有些内容可能已经过时。 Elasticsearch: 权威指南 » 处理人类语言 » 开始处理各种语言 » 混合语言域 « 每个域一种语言 词汇识别 »
混合语言域编辑
通常,那些从源数据中获得的多种语言混合在一个域中的文档会超出你的控制, 例如 从网上爬取的页面:
{ "body": "Page not found / Seite nicht gefunden / Page non trouvée" }
正确的处理多语言类型文档是非常困难的。即使你简单对所有的域使用 standard
(标准)分析器,
但你的文档会变得不利于搜索,除非你使用了合适的词干提取器。当然,你不可能只选择一个词干提取器。
词干提取器是由语言具体决定的。或者,词干提取器是由语言和脚本所具体决定的。像在 每种书写方式一种词干提取器 讨论中那样。
如果每个语言都使用不同的脚本,那么词干提取器就可以合并了。
假设你的混合语言使用的是一样的脚本,例如拉丁文,你有三个可用的选择:
- 切分到不同的域
- 进行多次分析
- 使用 n-grams
切分到不同的域编辑
在 语言识别 提到过的紧凑的语言检测 可以告诉你哪部分文档属于哪种语言。 你可以用 每个域一种语言 中用过的一样的方法来根据语言切分文本。
进行多次分析编辑
如果你主要处理数量有限的语言, 你可以使用多个域,每种语言都分析文本一次。
PUT /movies { "mappings": { "title": { "properties": { "title": { "type": "string", "fields": { "de": { "type": "string", "analyzer": "german" }, "en": { "type": "string", "analyzer": "english" }, "fr": { "type": "string", "analyzer": "french" }, "es": { "type": "string", "analyzer": "spanish" } } } } } } }
|
主域 |
|
每个子域提供不同的语言分析器来对 |
使用 n-grams编辑
你可以使用 Ngrams 在复合词的应用 中描述的 方法索引所有的词汇为 n-grams。 大多数语型变化包含给单词添加一个后缀(或在一些语言中添加前缀),所以通过将单词拆成 n-grams,你有很大的机会匹配到相似但不完全一样的单词。 这个可以结合 analyze-multiple times (多次分析)方法为不支持的语言提供全域抓取:
PUT /movies { "settings": { "analysis": {...} }, "mappings": { "title": { "properties": { "title": { "type": "string", "fields": { "de": { "type": "string", "analyzer": "german" }, "en": { "type": "string", "analyzer": "english" }, "fr": { "type": "string", "analyzer": "french" }, "es": { "type": "string", "analyzer": "spanish" }, "general": { "type": "string", "analyzer": "trigrams" } } } } } } }
|
在 |
|
在 |
当查询抓取所有 general
域时,你可以使用 minimum_should_match
(最少应当匹配数)来减少低质量的匹配。
或许也需要对其他字段进行稍微的加权,给与主语言域的权重要高于其他的在 general
上的域:
GET /movies/movie/_search { "query": { "multi_match": { "query": "club de la lucha", "fields": [ "title*^1.5", "title.general" ], "type": "most_fields", "minimum_should_match": "75%" } } }
|
所有 |
|
|
Getting Started Videos
- Starting Elasticsearch
- Introduction to Kibana
- Logstash Starter Guide
官方地址:https://www.elastic.co/guide/cn/elasticsearch/guide/current/mixed-lang-fields.html