搜索

搜索

使用Python有效地请求和处理多个HTML文件

debugcn 发表于 Dev

4

AdHominem

我正在编写一个工具，该工具可获取多个HTML文件并将其作为文本进行处理：

for url in url_list:
    url_response = requests.get(url)
    text = url_response.text
    # Process text here (put in database, search, etc)

问题是，这非常慢。如果只需要一个简单的响应，就可以使用grequest，但是由于我需要获取HTML文件的内容，因此这似乎不是一种选择。我该如何固定呢？

谢谢！

7stud

import requests
from multiprocessing import Pool

def process_html(url):
    url_response = requests.get(url)
    text = url_response.text
    print(text[:500])
    print('-' * 30)

urls = [
    'http://www.apple.com',
    'http://www.yahoo.com',
    'http://www.google.com',
    'http://www.apple.com',
    'http://www.yahoo.com',
    'http://www.google.com',
    'http://www.apple.com',
    'http://www.yahoo.com',
    'http://www.google.com',
]

with Pool(None) as p:  #None => uses cpu.count()
    p.map(process_html, urls)  #This blocks until all return values from process_html() have been collected.

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-16

0

我来说两句

0条评论

登录后参与评论

相关文章

来自分类Dev

如何更有效地对python中的csv文件中的列求和

来自分类Dev

有效地在libgdx中使用多个纹理

来自分类Dev

有效地使用多个Asyncio队列

来自分类Dev

有效地使用多个条件

来自分类Dev

使用Play 2.3有效地提供文件

来自分类Dev

有效地使用try（）删除文件

来自分类Dev

使用python有效地画线

来自分类Dev

有效地使用python groupby或defaultdict吗？

来自分类Dev

使用Python有效地遍历对象变量

来自分类Dev

使用python有效地画线

来自分类Dev

numpy：有效地与索引数组求和

来自分类Dev

numpy：有效地与索引数组求和

来自分类Dev

numpy：有效地与索引数组求和

来自分类Dev

有效地使用ConcurrentHashMap？

来自分类Dev

有效地使用parfor

来自分类Dev

我如何有效地使用numpy进行迭代求和

来自分类Dev

有效地遍历文件目录，同时最大程度地减少Python中的内存使用量

来自分类Dev

如何在Python 2.7中使用多个键有效地解析JSON数据？

来自分类Dev

如何有效地将多个json文件读入Dataframe或JavaRDD？

来自分类Dev

如何有效地对bash中有270,000+行的文件中的两列求和

来自分类Dev

如何使用 php 有效地发送大量的 get 请求

来自分类Dev

有效地串联多个大小不同的矩阵

来自分类Dev

从多个来源有效地更新表

来自分类Dev

R：有效地合并1000多个变量

来自分类Dev

pandas groupby：有效地构建多个列

来自分类Dev

有效地修改多个UIButton

来自分类Dev

有效地在多个类别之间进行选择

来自分类Dev

Python多重处理-如何有效地突破地图？

来自分类Dev

Python多重处理-如何有效地打破地图？

Related 相关文章

文章

热门标签

归档