为什么将余弦相似度和TF-IDF一起使用?

叶夫根尼·雷兹尼克(Evgenij Reznik)

TF-IDF并且Cosine Similarity是文本聚类的常用组合。每个文档都由TF-IDF权重的向量表示。

这就是我的课本所说的。

使用余弦相似度,您可以计算这些文档之间的相似度。

但是为什么这些技术恰好一起使用?
有什么好处?

例如也可以使用“ Jaccard相似性”吗?

我知道它是如何工作的,但我想知道为什么要使用这些技术。

有QUIT--Anony-Mousse

TF-IDF是使用的权重

余弦是使用的度量

您可以不使用加权而使用余弦,但是结果通常会更糟。Jaccard可在集合上使用-在不将权重转换成其他东西而又不使其与余弦相同的情况下,如何使用权重并不明显。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用TF-IDF和余弦相似度的匹配短语

来自分类Dev

为什么word2Vec使用余弦相似度?

来自分类Dev

tf-idf权重会影响余弦相似度吗?

来自分类Dev

(TF-IDF)如何计算余弦相似度后返回五篇相关文章

来自分类Dev

使用TFIDF的余弦相似度

来自分类Dev

为什么AOP和DI很少一起使用

来自分类Dev

为什么MockMVC和Mockito不能一起使用?

来自分类Dev

为什么filter和rowSums不能一起使用?

来自分类Dev

SFINAE和衰变不能一起使用。为什么?

来自分类Dev

为什么不将向量和列表一起使用?

来自分类Dev

为什么 HHVM 和 NGINX 一起使用?

来自分类Dev

为什么HMR和chunkhash不能一起使用?

来自分类Dev

为什么将Retrofit与AsyncTask一起使用?

来自分类Dev

为什么将webpack与电子一起使用

来自分类Dev

为什么将NGINX与Meteor一起使用?

来自分类Dev

为什么此RewriteRule与[R]一起使用而不与[QSA,L]一起使用?

来自分类Dev

为什么此RewriteRule与[R]一起使用而不与[QSA,L]一起使用?

来自分类Dev

为什么bash条件检查与[[-n ..]]一起使用,而不与[-n ..]一起使用?

来自分类Dev

为什么Quickbooks可以与Ubuntu一起使用,而不能与Fedora一起使用?

来自分类Dev

为什么它可以与$ scope一起使用,但不能与`this`一起使用?

来自分类Dev

为什么 xargs 与 echo 一起使用,但不与 sort 一起使用?

来自分类Dev

一起使用Argparse和Json

来自分类Dev

一起使用Maybe和Writer

来自分类Dev

与require一起使用`new`和`()`

来自分类Dev

一起使用DATEADD和NOW()

来自分类Dev

一起使用Core和Lwt

来自分类Dev

一起使用MySQL和MongoDB

来自分类Dev

MongoDB一起使用NOT和AND

来自分类Dev

一起使用CSS和PHP

Related 相关文章

热门标签

归档