逆搜索频率在弹性搜索相关性分数计算中的重要性

Mukul Chakravarty 发表于 Dev

穆库·查克拉瓦蒂（Mukul Chakravarty）

我在文档中阅读了相关分数的计算方法。但是我仍然不明白为什么他们要考虑反向文档的出现频率。反向文档频率如何影响文档的相关性？

值

基本上，如果术语T非常常见（例如停用词，“和”，“该”等）并且可以在大量文档中找到，则您可能不希望收回所有文档，并且您可能不想让术语T对得分影响太大。

这就是TF / IDF公式中IDF部分的工作，这意味着稀少的术语将对得分产生更大的贡献，因此，为什么给定文档中术语T的术语频率TF乘以该术语的IDF就可以了。整个文档语料库。显然，包含给定术语的文档越多，该术语的相关性/区分性就越小。

在文档D中出现几次但不一定在所有其他文档中出现的“大象”一词将使文档D得分高于所有其他文档。

由于IDF可以忽略不计，因此几乎所有文档中出现的“和”一词对得分的贡献都不大。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-03-3

我来说两句

0条评论

登录后参与评论

上一篇：如何忽略文件直到下一次修改或临时？

来自分类Dev

为什么弹性搜索返回错误的相关性分数？

来自分类Dev

从 ArangoDB 中获取文本搜索相关性分数？

来自分类Dev

Solr中的相关性搜索

来自分类Dev

弹性搜索-根据外部因素更改相关性

来自分类Dev

弹性搜索错误 - 变量 [相关性] 未定义

来自分类Dev

如何在弹性搜索 NEST 中对字段的重要性进行评分？

来自分类Dev

如何在弹性搜索中通过文本字段的长度修改相关性得分？

来自分类Dev

在Google趋势中搜索（可能是虚假的）相关性

来自分类Dev

JavaScript 中的模糊搜索，结果按相关性排序

来自分类Dev

MySQL全文搜索与通配符的相关性

来自分类Dev

MySQL查询标签搜索的相关性

来自分类Dev

MarkLogic 搜索相关性权重

来自分类Dev

基于大多数匹配项的查询的弹性搜索相关性

来自分类Dev

弹性搜索分数计算

来自分类Dev

MySQL-具有部分单词匹配和相关性分数（FULLTEXT）的高效搜索

来自分类Dev

Sitecore内容按字段和相关性搜索

来自分类Dev

MySQL全文搜索并按相关性和时间排序

来自分类Dev

搜索时实现与缺货产品的低相关性

来自分类Dev

SOLR搜索按相关性得分筛选

来自分类Dev

SQL查询优化，用于基于相关性的搜索

来自分类Dev

按相关性排序来自rentrez的已发布搜索

来自分类Dev

MySQL全文搜索按布尔模式顺序的相关性

来自分类Dev

Elasticsearch-搜索词的相关性

来自分类Dev

根据星级评分提高搜索的相关性

来自分类Dev

Sitecore内容按字段和相关性搜索

来自分类Dev

如何在javascript中按相关性对搜索结果进行排序

来自分类Dev

使用“匹配依据”进行全文搜索-将“按相关性”放到工作中

来自分类Dev

计算R中函数生成的数据的相关性

Related 相关文章

文章