逆搜索频率在弹性搜索相关性分数计算中的重要性

穆库·查克拉瓦蒂(Mukul Chakravarty)

我在文档中阅读了相关分数的计算方法。但是我仍然不明白为什么他们要考虑反向文档的出现频率。反向文档频率如何影响文档的相关性?

基本上,如果术语T非常常见(例如停用词,“和”,“该”等)并且可以在大量文档中找到,则您可能不希望收回所有文档,并且您可能不想让术语T对得分影响太大。

这就是TF / IDF公式中IDF部分的工作,这意味着稀少的术语将对得分产生更大的贡献,因此,为什么给定文档中术语T的术语频率TF乘以该术语的IDF就可以了。整个文档语料库。显然,包含给定术语的文档越多,该术语的相关性/区分性就越小。

在文档D中出现几次但不一定在所有其他文档中出现的“大象”一词将使文档D得分高于所有其他文档。

由于IDF可以忽略不计,因此几乎所有文档中出现的“和”一词对得分的贡献都不大。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

为什么弹性搜索返回错误的相关性分数?

来自分类Dev

从 ArangoDB 中获取文本搜索相关性分数?

来自分类Dev

Solr中的相关性搜索

来自分类Dev

弹性搜索-根据外部因素更改相关性

来自分类Dev

弹性搜索错误 - 变量 [相关性] 未定义

来自分类Dev

如何在弹性搜索 NEST 中对字段的重要性进行评分?

来自分类Dev

如何在弹性搜索中通过文本字段的长度修改相关性得分?

来自分类Dev

在Google趋势中搜索(可能是虚假的)相关性

来自分类Dev

JavaScript 中的模糊搜索,结果按相关性排序

来自分类Dev

MySQL全文搜索与通配符的相关性

来自分类Dev

MySQL查询标签搜索的相关性

来自分类Dev

MarkLogic 搜索相关性权重

来自分类Dev

相关性的内部搜索优化

来自分类Dev

基于大多数匹配项的查询的弹性搜索相关性

来自分类Dev

弹性搜索分数计算

来自分类Dev

MySQL-具有部分单词匹配和相关性分数(FULLTEXT)的高效搜索

来自分类Dev

Sitecore内容按字段和相关性搜索

来自分类Dev

MySQL全文搜索并按相关性和时间排序

来自分类Dev

搜索时实现与缺货产品的低相关性

来自分类Dev

SOLR搜索按相关性得分筛选

来自分类Dev

SQL查询优化,用于基于相关性的搜索

来自分类Dev

按相关性排序来自rentrez的已发布搜索

来自分类Dev

MySQL全文搜索按布尔模式顺序的相关性

来自分类Dev

Elasticsearch-搜索词的相关性

来自分类Dev

根据星级评分提高搜索的相关性

来自分类Dev

Sitecore内容按字段和相关性搜索

来自分类Dev

如何在javascript中按相关性对搜索结果进行排序

来自分类Dev

使用“匹配依据”进行全文搜索-将“按相关性”放到工作中

来自分类Dev

计算R中函数生成的数据的相关性

Related 相关文章

热门标签

归档