TF-IDF
并且Cosine Similarity
是文本聚类的常用组合。每个文档都由TF-IDF权重的向量表示。
这就是我的课本所说的。
使用余弦相似度,您可以计算这些文档之间的相似度。
但是为什么这些技术恰好一起使用?
有什么好处?
例如也可以使用“ Jaccard相似性”吗?
我知道它是如何工作的,但我想知道为什么要使用这些技术。
TF-IDF是使用的权重。
余弦是使用的度量。
您可以不使用加权而使用余弦,但是结果通常会更糟。Jaccard可在集合上使用-在不将权重转换成其他东西而又不使其与余弦相同的情况下,如何使用权重并不明显。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句