在生成TF-IDF模块时,我只是面对矩阵向量计算。
A % b = C
[[1,2], [3,4]] % [1/2, 1/3] = [[1/2, 2/3], [3/2, 4/3]]
这A
是一个文档中单词的术语频率计数的Document x Words
位置的矩阵。和载体被预先计算用于每个单词的IDF值,例如是1/7,如果单词是在7个不同的文件中使用。A_ij
i
j
b
b_j
j
人们如何称这种按列乘法?是否有现有的库支持此操作?(Python)
csr_matrix
中scipy
节省矩阵。A*b
操作,但是几分钟后仍未完成。使用NumPy。
这是逐元素乘法:
import numpy as np
A = np.array([[1, 2], [3, 4]])
b = np.array([1/2, 1/3])
print(A * b)
输出:
[[ 0.5 0.66666667]
[ 1.5 1.33333333]]
如果是csr_matrix:
from scipy.sparse import csr_matrix
x1 = csr_matrix([[1, 2], [3, 4]])
x2 = csr_matrix([1/2, 1/3])
print(x1.multiply(x2).todense())
输出:
[[ 0.5 0.66666667]
[ 1.5 1.33333333]]
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句