本书基于 Elasticsearch 2.x 版本,有些内容可能已经过时。 Elasticsearch: 权威指南 » 处理人类语言 » 归一化词元 » 举个例子 « 归一化词元 如果有口音 »
举个例子编辑
用的最多的语汇单元过滤器(token filters)是 lowercase
过滤器,它的功能正和你期望的一样;它将每个词元(token)转换为小写形式:
GET /_analyze?tokenizer=standard&filters=lowercase The QUICK Brown FOX!
|
得到的词元(token)是 |
只要查询和检索的分析过程是一样的,不管用户搜索 fox
还是 FOX
都能得到一样的搜索结果。lowercase
过滤器会将查询 FOX
的请求转换为查询 fox
的请求, fox
和我们在倒排索引中存储的是同一个词元(token)。
为了在分析过程中使用 token 过滤器
,我们可以创建一个 custom
分析器
:
PUT /my_index { "settings": { "analysis": { "analyzer": { "my_lowercaser": { "tokenizer": "standard", "filter": [ "lowercase" ] } } } } }
我们可以通过 analyze
API 来验证:
GET /my_index/_analyze?analyzer=my_lowercaser The QUICK Brown FOX!
|
得到的词元是 |
Getting Started Videos
- Starting Elasticsearch
- Introduction to Kibana
- Logstash Starter Guide
官方地址:https://www.elastic.co/guide/cn/elasticsearch/guide/current/lowercase-token-filter.html