合并两个 CountVectorizers 并计算余弦相似度

亚瑟·马克斯

我正在尝试实施信息检索论文中描述的技术,其中文档被分解为向量,然后计算它们的余弦相似度,就像这里的解释一样:http : //blog.christianperone.com/2013/ 09/machine-learning-cosine-similarity-for-vector-space-models-part-iii/

在示例中,我们有:

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

documents = (
    "The sky is blue",
    "The sun is bright",
    "The sun in the sky is bright",
    "We can see the shining sun, the bright sun"
)

tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)
cosine_similarity(tfidf_matrix[0:1], tfidf_matrix)

但是,我会不时收到一份新文件。有没有办法计算这个新文档的余弦相似度而不重新创建documents元组和tfidf_matrix

裂解酶

是的,你可以这样做:

new_docs = [
    "This is new doc 1",
    "This is new doc 2",
]
new_tfidf_matrix = tfidf_vectorizer.predict(new_docs)
cosine_similarity(new_tfidf_matrix, tfidf_matrix)

如果您认为新文档将包含训练数据集中不存在的新词汇,那么您应该考虑使用tfidf_vectorizer.fit(all_docs).

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

计算两个矩阵的余弦相似度

来自分类Dev

如何调试这段代码计算两个unicode文件的余弦相似度?

来自分类Dev

如何计算两个字符串向量之间的余弦相似度

来自分类Dev

计算两个数组之间的余弦相似度的正确方法?

来自分类Dev

如何计算两个字符串向量之间的余弦相似度

来自分类Dev

列表中两个词之间的余弦相似度

来自分类Dev

从两个单独的列表中提取每一行以计算出余弦相似度

来自分类Dev

计算余弦相似度

来自分类Dev

计算余弦相似度

来自分类Dev

如何计算JavaScript中两个列表的相似度

来自分类Dev

计算两个向量之间的相似度

来自分类Dev

Python Pandas:查找两列的余弦相似度

来自分类Dev

在Python中使用余弦相似度比较两个字典时出现类型错误

来自分类Dev

有什么办法,以加快在Java中两个双阵列之间的余弦相似的这个计算?

来自分类Dev

熊猫中余弦相似度的逐行计算

来自分类Dev

计算scala中的余弦相似度

来自分类Dev

计算余弦相似度火花java

来自分类Dev

余弦相似度:函数无法计算矩阵

来自分类Dev

通过R中的余弦相似度检索矩阵中每行的前k个相似行

来自分类Dev

.preventDefault()合并两个相似的函数-javascript

来自分类Dev

合并两个共享相似属性的for循环

来自分类Dev

合并两个具有相似列的数据框

来自分类Dev

如何合并两个相似的JavaScript代码块?

来自分类Dev

如何计算两个数组之间的相似度?

来自分类Dev

两个散列合并的时间复杂度

来自分类Dev

计算两个配置文件之间的相似度以获取共同特征

来自分类Dev

使用SOLR计算两个ulong之间的“相似度” /“位数”

来自分类Dev

如何使用特征向量计算两个图像之间的相似度得分?

来自分类Dev

使用Python查找2个编号的数据集之间的余弦相似度

Related 相关文章

  1. 1

    计算两个矩阵的余弦相似度

  2. 2

    如何调试这段代码计算两个unicode文件的余弦相似度?

  3. 3

    如何计算两个字符串向量之间的余弦相似度

  4. 4

    计算两个数组之间的余弦相似度的正确方法?

  5. 5

    如何计算两个字符串向量之间的余弦相似度

  6. 6

    列表中两个词之间的余弦相似度

  7. 7

    从两个单独的列表中提取每一行以计算出余弦相似度

  8. 8

    计算余弦相似度

  9. 9

    计算余弦相似度

  10. 10

    如何计算JavaScript中两个列表的相似度

  11. 11

    计算两个向量之间的相似度

  12. 12

    Python Pandas:查找两列的余弦相似度

  13. 13

    在Python中使用余弦相似度比较两个字典时出现类型错误

  14. 14

    有什么办法,以加快在Java中两个双阵列之间的余弦相似的这个计算?

  15. 15

    熊猫中余弦相似度的逐行计算

  16. 16

    计算scala中的余弦相似度

  17. 17

    计算余弦相似度火花java

  18. 18

    余弦相似度:函数无法计算矩阵

  19. 19

    通过R中的余弦相似度检索矩阵中每行的前k个相似行

  20. 20

    .preventDefault()合并两个相似的函数-javascript

  21. 21

    合并两个共享相似属性的for循环

  22. 22

    合并两个具有相似列的数据框

  23. 23

    如何合并两个相似的JavaScript代码块?

  24. 24

    如何计算两个数组之间的相似度?

  25. 25

    两个散列合并的时间复杂度

  26. 26

    计算两个配置文件之间的相似度以获取共同特征

  27. 27

    使用SOLR计算两个ulong之间的“相似度” /“位数”

  28. 28

    如何使用特征向量计算两个图像之间的相似度得分?

  29. 29

    使用Python查找2个编号的数据集之间的余弦相似度

热门标签

归档