我最近一直在从事一个项目,其中大部分时间都花在乘以一个密集矩阵A
和一个稀疏向量上v
(请参见此处)。在减少计算量的尝试中,我注意到的运行时间A.dot(v)
不受的零项数量影响v
。
为了解释为什么在这种情况下我希望运行时有所改善,让result = A.dot.v
so result[j] = sum_i(A[i,j]*v[j]) for j = 1...v.shape[0]
。如果那样的v[j] = 0
话显然result[j] = 0
不管价值A[::,j]
。因此,在这种情况下,我希望仅设置numpy,result[j] = 0
但似乎仍然可以继续进行计算sum_i(A[i,j]*v[j])
。
我继续编写了一个简短的示例脚本,以在下面确认此行为。
import time
import numpy as np
np.__config__.show() #make sure BLAS/LAPACK is being used
np.random.seed(seed = 0)
n_rows, n_cols = 1e5, 1e3
#initialize matrix and vector
A = np.random.rand(n_rows, n_cols)
u = np.random.rand(n_cols)
u = np.require(u, dtype=A.dtype, requirements = ['C'])
#time
start_time = time.time()
A.dot(u)
print "time with %d non-zero entries: %1.5f seconds" % (sum(u==0.0), (time.time() - start_time))
#set all but one entry of u to zero
v = u
set_to_zero = np.random.choice(np.array(range(0, u.shape[0])), size = (u.shape[0]-2), replace=False)
v[set_to_zero] = 0.0
start_time = time.time()
A.dot(v)
print "time with %d non-zero entries: %1.5f seconds" % (sum(v==0.0), (time.time() - start_time))
#what I would really expect it to take
non_zero_index = np.squeeze(v != 0.0)
A_effective = A[::,non_zero_index]
v_effective = v[non_zero_index]
start_time = time.time()
A_effective.dot(v_effective)
print "expected time with %d non-zero entries: %1.5f seconds" % (sum(v==0.0), (time.time() - start_time))
运行此命令,无论使用密集矩阵u
还是稀疏矩阵,矩阵向量乘法的运行时间都相同v
:
time with 0 non-zero entries: 0.04279 seconds
time with 999 non-zero entries: 0.04050 seconds
expected time with 999 non-zero entries: 0.00466 seconds
我想知道这是否是设计使然?还是我在运行矩阵向量乘法的过程中缺少某些东西。就像进行健全性检查一样:我确保已将numpy
其链接到本机上的BLAS库,并且两个阵列均已链接C_CONTIGUOUS
(因为numpy调用BLAS显然需要这样做)。
尝试一个简单的函数怎么样?
def dot2(A,v):
ind = np.where(v)[0]
return np.dot(A[:,ind],v[ind])
In [352]: A=np.ones((100,100))
In [360]: timeit v=np.zeros((100,));v[::60]=1;dot2(A,v)
10000 loops, best of 3: 35.4 us per loop
In [362]: timeit v=np.zeros((100,));v[::40]=1;dot2(A,v)
10000 loops, best of 3: 40.1 us per loop
In [364]: timeit v=np.zeros((100,));v[::20]=1;dot2(A,v)
10000 loops, best of 3: 46.5 us per loop
In [365]: timeit v=np.zeros((100,));v[::60]=1;np.dot(A,v)
10000 loops, best of 3: 29.2 us per loop
In [366]: timeit v=np.zeros((100,));v[::20]=1;np.dot(A,v)
10000 loops, best of 3: 28.7 us per loop
完全迭代的Python实现将是:
def dotit(A,v, test=False):
n,m = A.shape
res = np.zeros(n)
if test:
for i in range(n):
for j in range(m):
if v[j]:
res[i] += A[i,j]*v[j]
else:
for i in range(n):
for j in range(m):
res[i] += A[i,j]*v[j]
return res
显然,这不会像编译的那样快dot
,但是我希望测试的相对优势仍然适用。为了进一步测试,您可以在中实现它cython
。
注意,v[j]
测试在迭代的深处进行。
对于稀疏v
(100个元素中的3个),测试可以节省时间:
In [374]: timeit dotit(A,v,True)
100 loops, best of 3: 3.81 ms per loop
In [375]: timeit dotit(A,v,False)
10 loops, best of 3: 21.1 ms per loop
但是如果v
密集的话会花费时间:
In [376]: timeit dotit(A,np.arange(100),False)
10 loops, best of 3: 22.7 ms per loop
In [377]: timeit dotit(A,np.arange(100),True)
10 loops, best of 3: 25.6 ms per loop
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句