使用Python有效地请求和处理多个HTML文件

AdHominem

我正在编写一个工具,该工具可获取多个HTML文件并将其作为文本进行处理:

for url in url_list:
    url_response = requests.get(url)
    text = url_response.text
    # Process text here (put in database, search, etc)

问题是,这非常慢。如果只需要一个简单的响应,就可以使用grequest,但是由于我需要获取HTML文件的内容,因此这似乎不是一种选择。我该如何固定呢?

谢谢!

7stud
import requests
from multiprocessing import Pool

def process_html(url):
    url_response = requests.get(url)
    text = url_response.text
    print(text[:500])
    print('-' * 30)

urls = [
    'http://www.apple.com',
    'http://www.yahoo.com',
    'http://www.google.com',
    'http://www.apple.com',
    'http://www.yahoo.com',
    'http://www.google.com',
    'http://www.apple.com',
    'http://www.yahoo.com',
    'http://www.google.com',
]

with Pool(None) as p:  #None => uses cpu.count()
    p.map(process_html, urls)  #This blocks until all return values from process_html() have been collected.

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何更有效地对python中的csv文件中的列求和

来自分类Dev

有效地在libgdx中使用多个纹理

来自分类Dev

有效地使用多个Asyncio队列

来自分类Dev

有效地使用多个条件

来自分类Dev

使用Play 2.3有效地提供文件

来自分类Dev

有效地使用try()删除文件

来自分类Dev

使用python有效地画线

来自分类Dev

有效地使用python groupby或defaultdict吗?

来自分类Dev

使用Python有效地遍历对象变量

来自分类Dev

使用python有效地画线

来自分类Dev

numpy:有效地与索引数组求和

来自分类Dev

numpy:有效地与索引数组求和

来自分类Dev

numpy:有效地与索引数组求和

来自分类Dev

有效地使用ConcurrentHashMap?

来自分类Dev

有效地使用parfor

来自分类Dev

我如何有效地使用numpy进行迭代求和

来自分类Dev

有效地遍历文件目录,同时最大程度地减少Python中的内存使用量

来自分类Dev

如何在Python 2.7中使用多个键有效地解析JSON数据?

来自分类Dev

如何有效地将多个json文件读入Dataframe或JavaRDD?

来自分类Dev

如何有效地对bash中有270,000+行的文件中的两列求和

来自分类Dev

如何使用 php 有效地发送大量的 get 请求

来自分类Dev

有效地串联多个大小不同的矩阵

来自分类Dev

从多个来源有效地更新表

来自分类Dev

R:有效地合并1000多个变量

来自分类Dev

pandas groupby:有效地构建多个列

来自分类Dev

有效地修改多个UIButton

来自分类Dev

有效地在多个类别之间进行选择

来自分类Dev

Python多重处理-如何有效地突破地图?

来自分类Dev

Python多重处理-如何有效地打破地图?