我也可以不用log实现idf,在idf中使用log有什么意义?
Like -: idf = log(# of docs/# of docs in that word出现)
但是为什么我们不能使用 idf = (# of docs/# of docs in that word 出现)
这是因为 IDF 将与词频 TF 相乘。对于非常常用的词,如果不使用 log,IDF 很可能为 1,因此即使是这些常用词最终也会比实际的稀有和有用的词权重。使用log
,对于最常见的词,IDF 可以变为 0,因此它们的有效 tf-idf 也变为 0,可以忽略它们。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句