我在文档中阅读了相关分数的计算方法。但是我仍然不明白为什么他们要考虑反向文档的出现频率。反向文档频率如何影响文档的相关性?
基本上,如果术语T非常常见(例如停用词,“和”,“该”等)并且可以在大量文档中找到,则您可能不希望收回所有文档,并且您可能不想让术语T对得分影响太大。
这就是TF / IDF公式中IDF部分的工作,这意味着稀少的术语将对得分产生更大的贡献,因此,为什么给定文档中术语T的术语频率TF乘以该术语的IDF就可以了。整个文档语料库。显然,包含给定术语的文档越多,该术语的相关性/区分性就越小。
在文档D中出现几次但不一定在所有其他文档中出现的“大象”一词将使文档D得分高于所有其他文档。
由于IDF可以忽略不计,因此几乎所有文档中出现的“和”一词对得分的贡献都不大。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句