搜索

搜索

合并两个 CountVectorizers 并计算余弦相似度

debugcn 发表于 Dev

6

亚瑟·马克斯

我正在尝试实施信息检索论文中描述的技术，其中文档被分解为向量，然后计算它们的余弦相似度，就像这里的解释一样：http : //blog.christianperone.com/2013/ 09/machine-learning-cosine-similarity-for-vector-space-models-part-iii/

在示例中，我们有：

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

documents = (
    "The sky is blue",
    "The sun is bright",
    "The sun in the sky is bright",
    "We can see the shining sun, the bright sun"
)

tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)
cosine_similarity(tfidf_matrix[0:1], tfidf_matrix)

但是，我会不时收到一份新文件。有没有办法计算这个新文档的余弦相似度而不重新创建documents元组和tfidf_matrix？

裂解酶

是的，你可以这样做：

new_docs = [
    "This is new doc 1",
    "This is new doc 2",
]
new_tfidf_matrix = tfidf_vectorizer.predict(new_docs)
cosine_similarity(new_tfidf_matrix, tfidf_matrix)

如果您认为新文档将包含训练数据集中不存在的新词汇，那么您应该考虑使用tfidf_vectorizer.fit(all_docs).

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-13

0

我来说两句

0条评论

登录后参与评论

相关文章

来自分类Dev

计算两个矩阵的余弦相似度

来自分类Dev

如何调试这段代码计算两个unicode文件的余弦相似度？

来自分类Dev

如何计算两个字符串向量之间的余弦相似度

来自分类Dev

计算两个数组之间的余弦相似度的正确方法？

来自分类Dev

如何计算两个字符串向量之间的余弦相似度

来自分类Dev

列表中两个词之间的余弦相似度

来自分类Dev

从两个单独的列表中提取每一行以计算出余弦相似度

来自分类Dev

计算余弦相似度

来自分类Dev

计算余弦相似度

来自分类Dev

如何计算JavaScript中两个列表的相似度

来自分类Dev

计算两个向量之间的相似度

来自分类Dev

Python Pandas：查找两列的余弦相似度

来自分类Dev

在Python中使用余弦相似度比较两个字典时出现类型错误

来自分类Dev

有什么办法，以加快在Java中两个双阵列之间的余弦相似的这个计算？

来自分类Dev

熊猫中余弦相似度的逐行计算

来自分类Dev

计算scala中的余弦相似度

来自分类Dev

计算余弦相似度火花java

来自分类Dev

余弦相似度：函数无法计算矩阵

来自分类Dev

通过R中的余弦相似度检索矩阵中每行的前k个相似行

来自分类Dev

.preventDefault（）合并两个相似的函数-javascript

来自分类Dev

合并两个共享相似属性的for循环

来自分类Dev

合并两个具有相似列的数据框

来自分类Dev

如何合并两个相似的JavaScript代码块？

来自分类Dev

如何计算两个数组之间的相似度？

来自分类Dev

两个散列合并的时间复杂度

来自分类Dev

计算两个配置文件之间的相似度以获取共同特征

来自分类Dev

使用SOLR计算两个ulong之间的“相似度” /“位数”

来自分类Dev

如何使用特征向量计算两个图像之间的相似度得分？

来自分类Dev

使用Python查找2个编号的数据集之间的余弦相似度

Related 相关文章

文章

热门标签

归档