为什么将余弦相似度和TF-IDF一起使用？

Evgenij Reznik 发表于 Dev

叶夫根尼·雷兹尼克（Evgenij Reznik）

TF-IDF并且Cosine Similarity是文本聚类的常用组合。每个文档都由TF-IDF权重的向量表示。

这就是我的课本所说的。

使用余弦相似度，您可以计算这些文档之间的相似度。

但是为什么这些技术恰好一起使用？
有什么好处？

例如也可以使用“ Jaccard相似性”吗？

我知道它是如何工作的，但我想知道为什么要使用这些技术。

有QUIT--Anony-Mousse

TF-IDF是使用的权重。

余弦是使用的度量。

您可以不使用加权而使用余弦，但是结果通常会更糟。Jaccard可在集合上使用-在不将权重转换成其他东西而又不使其与余弦相同的情况下，如何使用权重并不明显。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-25

我来说两句

0条评论

登录后参与评论

上一篇：编译后Visual Studio冻结。当我尝试启动应用程序时，资源管理器也是如此

来自分类Dev

使用TF-IDF和余弦相似度的匹配短语

来自分类Dev

为什么word2Vec使用余弦相似度？

来自分类Dev

tf-idf权重会影响余弦相似度吗？

来自分类Dev

（TF-IDF）如何计算余弦相似度后返回五篇相关文章

来自分类Dev

使用TFIDF的余弦相似度

来自分类Dev

为什么AOP和DI很少一起使用

来自分类Dev

为什么MockMVC和Mockito不能一起使用？

来自分类Dev

为什么filter和rowSums不能一起使用？

来自分类Dev

SFINAE和衰变不能一起使用。为什么？

来自分类Dev

为什么不将向量和列表一起使用？

来自分类Dev

为什么 HHVM 和 NGINX 一起使用？

来自分类Dev

为什么HMR和chunkhash不能一起使用？

来自分类Dev

为什么将Retrofit与AsyncTask一起使用？

来自分类Dev

为什么将webpack与电子一起使用

来自分类Dev

为什么将NGINX与Meteor一起使用？

来自分类Dev

为什么此RewriteRule与[R]一起使用而不与[QSA，L]一起使用？

来自分类Dev

为什么此RewriteRule与[R]一起使用而不与[QSA，L]一起使用？

来自分类Dev

为什么bash条件检查与[[-n ..]]一起使用，而不与[-n ..]一起使用？

来自分类Dev

为什么Quickbooks可以与Ubuntu一起使用，而不能与Fedora一起使用？

来自分类Dev

为什么它可以与$ scope一起使用，但不能与`this`一起使用？

来自分类Dev

为什么 xargs 与 echo 一起使用，但不与 sort 一起使用？

来自分类Dev

一起使用Argparse和Json

来自分类Dev

一起使用Maybe和Writer

来自分类Dev

与require一起使用`new`和`（）`

来自分类Dev

一起使用DATEADD和NOW（）

来自分类Dev

一起使用Core和Lwt

来自分类Dev

一起使用MySQL和MongoDB

来自分类Dev

MongoDB一起使用NOT和AND

来自分类Dev

一起使用CSS和PHP

Related 相关文章

文章