Hello ElasticSearch - 相关性评分

ElasticSearch 的相关性评分用于衡量文档与用户查询的匹配程度。默认情况下，ElasticSearch 使用 BM25 算法作为其相关性评分模型（自 5.0 版本起）。

1. TF（词频）

TF（Term Frequency）是指查询中的某个词（term）在文档特定字段中出现的频率。TF 的核心思想是：一个词在文档中出现得越多，说明该文档与这个词的相关性越高。

公式如下：

TF (t, d) = \sqrt{freq (t, d)}

信息

ElasticSearch 对原始词频取平方根，防止高频词对评分的影响过大。

高 TF 值通常意味着文档更相关。但单纯依赖 TF 可能导致问题，比如常见词（如 “的”、“是”）出现频率高但意义不大，因此需要结合 IDF。

IDF（Inverse Document Frequency）衡量一个词的稀有性。如果一个词在索引中的文档中出现得很少（稀有），它的 IDF 值较高，说明它对区分相关文档更有价值。

公式如下：

IDF (t) = 1 + \log (\frac{N + 1}{df (t) + 1})

常见词（如 “的”）在许多文档中出现，IDF 值低。稀有词（如专业术语）在少数文档中出现，IDF 值高。IDF 帮助降低常见词对相关性评分的影响，提升稀有词的权重。

在 ElasticSearch 早期版本（如 2.x 及之前），默认使用 TF-IDF 模型。TF-IDF 是 BM25 的前身，结合了 TF 和 IDF，但没有 BM25 的饱和机制和字段长度归一化优化。

简化的 TF-IDF 公式如下：

score (q, d) = \sum_{t \in q} TF (t, d) \cdot IDF (t)^{2} \cdot coord (q, d) \cdot queryNorm (q)

TF 增长无上限，可能导致高频词过度影响评分。缺乏字段长度归一化，容易偏向长文档。协调因子可能导致短查询的评分不稳定。

由于这些问题，ElasticSearch 从 5.0 开始用 BM25 替换了 TF-IDF。

ElasticSearch 默认使用 BM25（Best Matching 25）算法作为相关性评分模型。BM25 是一种基于概率的排名函数，结合了 TF 和 IDF，并引入了字段长度归一化和参数调节，以更精确地评估文档相关性。

公式如下：

score (q, d) = \sum_{t \in q} IDF (t) \cdot \frac{TF (t, d) \cdot (k_{1} + 1)}{TF (t, d) + k_{1} \cdot (1 - b + b \cdot \frac{| d |}{avgdl})}

TF 饱和：通过 $k_{1}$ 参数，BM25 限制了词频的增益效应，避免高频词对评分贡献过大。字段长度归一化：短字段的匹配比长字段更重要，因为短字段中的词更可能是文档的核心内容。参数可调： $k_{1}$ 和 $b$ 可通过 ElasticSearch 的查询配置调整，以适配不同场景。

优点：