归一化词元 | Elasticsearch: 权威指南

归一化词元 | Elasticsearch: 权威指南 | Elastic

2026-03-04

请注意:
本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。

» »

归一化词元编辑

把文本切割成词元(token)只是这项工作的一半。为了让这些词元(token)更容易搜索, 这些词元(token)需要被 归一化(normalization)--这个过程会去除同一个词元(token)的无意义差别，例如大写和小写的差别。可能我们还需要去掉有意义的差别, 让 esta`、`ésta 和 está 都能用同一个词元(token)来搜索。你会用 déjà vu 来搜索，还是 deja vu?

这些都是语汇单元过滤器的工作。语汇单元过滤器接收来自分词器(tokenizer)的词元(token)流。还可以一起使用多个语汇单元过滤器，每一个都有自己特定的处理工作。每一个语汇单元过滤器都可以处理来自另一个语汇单元过滤器输出的单词流。

« 整理输入文本举个例子 »

官方地址：https://www.elastic.co/guide/cn/elasticsearch/guide/current/token-normalization.html

有任何技术问题请点击这里网站运营推广招聘

IT PHP 编程语言开发编程 Linux 科技 Elasticsearch HTML/CSS/XML 数据库面试网络 JAVA NoSQL C/C++ 操作系统 Golang Git 算法正则表达式 Redis 互联网 MySql 软件运维 JavaScript 国际架构设计 Mac OS TCP/IP Excel Windows Oracle Socket VR Vim MongoDB 运营商业 Python MemCache 硬件电子娱乐设计摄影 nginx WordPress 游戏 HTTP 团建数码电器 Docker 大模型

Elasticsearch集群模式知多少携程Elasticsearch数据同步实践 Elasticsearch是做什么的以及它的使用和基本原理 elasticsearch动态映射 Elasticsearch简介与实战 elasticsearch配置如何配置使用Elasticsearch的动态映射 (dynamic mapping) elasticsearch最新版安装两节点Elasticsearch集群 Elasticsearch集群高亮搜索 elasticsearch集群部署文档 elasticsearch集群分布式特性 [Elasticsearch集群分页]from-size VS scroll-scan Elasticsearch集群节点(角色)类型解释node.master和node.data ElasticSearch更新后延迟解决方法 [Elasticsearch] 多字段搜索 (三) - multi_match查询和多数字段 ElasticSearch 的聚合（Aggregations） ES的聚合统计不准确 Elasticsearch 映射参数 fields ES查看集群信息命令

略微加速

Elasticsearch权威指南 - 互联网笔记

归一化词元编辑

略微加速

Elasticsearch权威指南 - 互联网笔记

归一化词元编辑

Getting Started Videos