为什么机器学习中的逆文档频率中有一个对数项?我们也可以不用log,这里log的真正用途是什么?

丽迪玛·加格

我也可以不用log实现idf,在idf中使用log有什么意义?

Like -: idf = log(# of docs/# of docs in that word出现)

但是为什么我们不能使用 idf = (# of docs/# of docs in that word 出现)

这是因为 IDF 将与词频 TF 相乘。对于非常常用的词,如果不使用 log,IDF 很可能为 1,因此即使是这些常用词最终也会比实际的稀有和有用的词权重。使用log,对于最常见的词,IDF 可以变为 0,因此它们的有效 tf-idf 也变为 0,可以忽略它们。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

Related 相关文章

热门标签

归档