Web使用BeautifulSoup抓取多个页面

回切

我从首页收集了所有必要的信息,但是不知道如何从网站的所有页面收集信息。我尝试在其他stackoverflow主题中找到我的解决方案,但一无所知。如果您能帮助我,我将非常感谢。

我的解析网站:https : //jaze.ru/forum/topic?id=50&page=1

资源:

from urllib.request import urlopen as uReq
from urllib.request import Request
from bs4 import BeautifulSoup as soup

# my_url and cutoff mod_security 
my_url = Request('http://jaze.ru/forum/topic?id=50&page=1', headers={'User-Agent': 'Mozilla/5.0'})
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
# html parsing
page_soup = soup(page_html, "html.parser")
# grabs each name of player
containers = page_soup.findAll("div", {"class":"top-area"})


for container in containers:
    playerName = container.div.a.text.strip()
    print("BattlePass PlayerName: " + playerName)

来源2

from urllib.request import urlopen as uReq
from urllib.request import Request
from bs4 import BeautifulSoup as soup

# start page
i = 1
while True:
    link = 'https://jaze.ru/forum/topic?id=50&page='+str(i)
    my_url = Request(
        link,
        headers={'User-Agent': 'Mozilla/5.0'}
    )
    i += 1  # increment page no for next run
    uClient = uReq(my_url)
    if uClient.url != link:
        break
    page_html = uClient.read()
    # Check if there was a redirect
    uClient.close()
    # html parsing
    page_soup = soup(page_html, "html.parser")
    # grabs each name of player
    containers = page_soup.findAll("div", {"class": "top-area"})

    # save all info to csv file
    filename = "BattlePassNicknames.csv"
    f = open(filename, "w", encoding="utf-8")

    headers1 = "Member of JAZE Battle Pass 2019\n"

    f.write(headers1)

    for container in containers:
        playerName = container.div.a.text.strip()
        print("BattlePass PlayerName: " + playerName)

        f.write(playerName + "\n")

    f.close()
比托·本尼汉(Bitto Bennichan)

如果page查询参数大于上一个可用页面,则网站会将您重定向到另一个页面,您可以使用它来递增page直到被重定向。如果您已经知道主题id(在这种情况下为50),则适用

from urllib.request import urlopen as uReq
from urllib.request import Request
from bs4 import BeautifulSoup as soup

# start page
i = 1
while True:
    link = 'https://jaze.ru/forum/topic?id=50&page='+str(i)
    my_url = Request(
        link,
        headers={'User-Agent': 'Mozilla/5.0'}
    )
    i += 1  # increment page no for next run
    uClient = uReq(my_url)
    if uClient.url != link:
        break
    page_html = uClient.read()
    # Check if there was a redirect
    uClient.close()
    # html parsing
    page_soup = soup(page_html, "html.parser")
    # grabs each name of player
    containers = page_soup.findAll("div", {"class": "top-area"})

    for container in containers:
        playerName = container.div.a.text.strip()
        print("BattlePass PlayerName: " + playerName)

输出量

BattlePass PlayerName: VANTY3
BattlePass PlayerName: VANTY3
BattlePass PlayerName: KK#キング
BattlePass PlayerName: memories
BattlePass PlayerName: Waffel
BattlePass PlayerName: CynoBap
...
BattlePass PlayerName: Switchback

如果您还想使用随机主题ids进行尝试,则必须在代码中的某处处理urllib.error.HTTPError,以处理所有404等。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用 BeautifulSoup 在 python 中抓取多个页面

来自分类Dev

BeautifulSoup 无法抓取多个页面

来自分类Dev

如何使用Python和BeautifulSoup抓取多个Google页面

来自分类Dev

如何使用BeautifulSoup创建循环以从源URL抓取多个页面?

来自分类Dev

Python-使用BeautifulSoup在页面内抓取多个类

来自分类Dev

使用 BeautifulSoup 和 Python 抓取多个表格页面

来自分类Dev

使用RVest跨多个页面进行Web抓取

来自分类Dev

通过多个页面进行Web抓取不会保存每个结果-beautifulsoup

来自分类Dev

使用BeautifulSoup网站抓取IMDb页面

来自分类Dev

如何使用BeautifulSoup和Python抓取页面?

来自分类Dev

使用 BeautifulSoup 从抓取的页面中提取文本

来自分类Dev

使用beautifulsoup抓取动态加载页面

来自分类Dev

如何使用python和beautifulsoup4循环抓取网站中多个页面的数据

来自分类Dev

使用 BeautifulSoup 抓取页面会产生奇怪的结果(最后是多个 </p>)。为什么?

来自分类Dev

跨多个页面的R Web抓取

来自分类Dev

Beautifulsoup在具有多个表的页面中抓取特定表

来自分类Dev

在Wikipedia上使用BeautifulSoup进行Web抓取

来自分类Dev

使用Python,BeautifulSoup进行Web抓取

来自分类Dev

使用BeautifulSoup到Dataframe进行Web抓取

来自分类Dev

使用硒从多个页面抓取链接

来自分类Dev

使用python为多个页面抓取网页

来自分类Dev

网页抓取 - 使用 R 的多个页面

来自分类Dev

使用for循环第2部分从多个页面进行Web抓取

来自分类Dev

Beautifulsoup的Web抓取问题

来自分类Dev

如何使用python BeautifulSoup通过分页抓取页面

来自分类Dev

无法抓取多个页面

来自分类Dev

当 url 更改并添加 'offset=[# here]' 时,Web 抓取多个页面

来自分类Dev

python beautifulsoup抓取存档页面

来自分类Dev

使用Python / BeautifulSoup进行Web抓取:具有指向个人资料的多个链接的网站>需要个人资料内容

Related 相关文章

  1. 1

    使用 BeautifulSoup 在 python 中抓取多个页面

  2. 2

    BeautifulSoup 无法抓取多个页面

  3. 3

    如何使用Python和BeautifulSoup抓取多个Google页面

  4. 4

    如何使用BeautifulSoup创建循环以从源URL抓取多个页面?

  5. 5

    Python-使用BeautifulSoup在页面内抓取多个类

  6. 6

    使用 BeautifulSoup 和 Python 抓取多个表格页面

  7. 7

    使用RVest跨多个页面进行Web抓取

  8. 8

    通过多个页面进行Web抓取不会保存每个结果-beautifulsoup

  9. 9

    使用BeautifulSoup网站抓取IMDb页面

  10. 10

    如何使用BeautifulSoup和Python抓取页面?

  11. 11

    使用 BeautifulSoup 从抓取的页面中提取文本

  12. 12

    使用beautifulsoup抓取动态加载页面

  13. 13

    如何使用python和beautifulsoup4循环抓取网站中多个页面的数据

  14. 14

    使用 BeautifulSoup 抓取页面会产生奇怪的结果(最后是多个 </p>)。为什么?

  15. 15

    跨多个页面的R Web抓取

  16. 16

    Beautifulsoup在具有多个表的页面中抓取特定表

  17. 17

    在Wikipedia上使用BeautifulSoup进行Web抓取

  18. 18

    使用Python,BeautifulSoup进行Web抓取

  19. 19

    使用BeautifulSoup到Dataframe进行Web抓取

  20. 20

    使用硒从多个页面抓取链接

  21. 21

    使用python为多个页面抓取网页

  22. 22

    网页抓取 - 使用 R 的多个页面

  23. 23

    使用for循环第2部分从多个页面进行Web抓取

  24. 24

    Beautifulsoup的Web抓取问题

  25. 25

    如何使用python BeautifulSoup通过分页抓取页面

  26. 26

    无法抓取多个页面

  27. 27

    当 url 更改并添加 'offset=[# here]' 时,Web 抓取多个页面

  28. 28

    python beautifulsoup抓取存档页面

  29. 29

    使用Python / BeautifulSoup进行Web抓取:具有指向个人资料的多个链接的网站>需要个人资料内容

热门标签

归档