我正在尝试在python cgi中使用多线程将多个文件(ard 25k)放入一个zip文件中。我已经在下面编写了脚本,但是以某种方式我得到的响应的内容长度为0,并且响应中没有数据。这是我第一次在python中使用多线程。我在代码中缺少什么吗?即使在发布数据之前,输出也会被打印吗?
任何帮助将不胜感激。
这是我的代码:
b = StringIO()
z = zipfile.ZipFile(b, 'w', zipfile.ZIP_DEFLATED)
def read_file(link):
fname = link.split('/')
fname = fname[-1]
z.write(link, fname)
if __name__ == '__main__':
form = cgi.FieldStorage()
fileLinks = form.getvalue("fileLink")
p = Pool(10)
p.map(read_file, fileLinks)
p.close()
p.join()
z.close()
zipFilename = "DataFiles-" + str(time.time()) + ".zip"
length = b.tell()
sys.stdout.write(
HEADERS % ('application/zip', zipFilename, zipFilename, length)
)
b.seek(0)
sys.stdout.write(b.read())
b.close()
相同代码的顺序版本:
for fileLink in fileLinks:
fname = fileLink.split('/')
filename = fname[-1]
z.write(fileLink, filename)
z.close()
问题应该是ZipFile.write()
(ZipFile
通常)不是线程安全的。
您必须以某种方式序列化对zip文件的线程访问。这是一种实现方法(在Python 3中):
ziplock = threading.Lock()
def read_file(link):
fname = link.split('/')
fname = fname[-1]
with ziplock:
z.write(link, fname)
以这种方式进行操作应该没有任何好处,因为锁定实际上是在对zip文件的创建进行序列化。
此版本可以实现一些并行化,该版本在将文件内容添加到zip文件之前先读取文件内容:
def read_file(link):
fname = link.split('/')
fname = fname[-1]
# the file is read in parallel
contents = open(link).read()
with ziplock:
# writes to the zip file a re serialized
z.writestr(fname, contents)
但是,如果文件位于同一文件系统上,则读操作可能会发挥所有作用,就好像它们已被操作系统序列化一样。
因为是文件,所以并行化的可能目标是进程中受CPU约束的部分,即压缩,而zip格式似乎是不可能的(因为zip
文件的行为就像一个目录,因此每个文件都write()
必须离开准备在上生成完整档案的状态close()
)。
如果您可以使用其他压缩格式,则可以使用gizp进行压缩,并以tar(tarfile
)作为存档格式,而无需锁定就可以进行并行化,因为每个文件都可以并行读取和压缩,并且只有tar串联才能完成(.tar.gz
或.tgz
存档格式)。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句