使用Python和beautifulsoup进行Web抓取:BeautifulSoup函数可以保存什么?

安东尼·豪瑟

这个问题紧随先前的问题我想使用Python从投注网站中删除数据。我首先尝试遵循本教程,但问题是该网站tipico无法从瑞士获得。因此,我选择了另一个博彩网站:Winamax。在本教程中,首先检查网页tipico,以找到html文件中的下注率在tipico网页中,它们存储在“ c_but_base c_but”类的按钮中,因此,通过编写以下几行,可以使用“美汤”模块保存和打印费率:

from bs4 import BeautifulSoup
import urllib.request
import re

url = "https://www.tipico.de/de/live-wetten/"

try:
 page = urllib.request.urlopen(url)
except:
 print(“An error occured.”)

soup = BeautifulSoup(page, ‘html.parser’)

regex = re.compile(‘c_but_base c_but’)
content_lis = soup.find_all(‘button’, attrs={‘class’: regex})
print(content_lis)

因此,我试图对网页Winamax进行同样的处理我检查了页面,发现下注率存储在“ ui-touchlink-needsclick price单价”类的按钮中。请参见下面的代码:

from bs4 import BeautifulSoup
import urllib.request
import re

url = "https://www.winamax.fr/paris-sportifs/sports/1/7/4"

try:
    page = urllib.request.urlopen(url)
except Exception as e:
    print(f"An error occurred: {e}")

soup = BeautifulSoup(page, 'html.parser')

regex = re.compile('ui-touchlink-needsclick price odd-price')
content_lis = soup.find_all('button', attrs={'class': regex})
print(content_lis)

问题是它什么都不打印:Python找不到此类的元素(对吗?)。因此,我尝试打印对象,以查看BeautifulSoup函数的功能。我加了这条线

print(soup)

当打印出来(我没有表现出来的汤打印,因为实在是太长了),我注意到,这是不一样的文字,当我做了右键点击“检查”的Winamax网页中显示的内容。那么BeautifulSoup函数到底在做什么?如何使用BeautifulSoup从Winamax网站存储投注率?

编辑:我从来没有用html编码,我是Python的初学者,所以某些术语可能是错误的,这就是为什么某些部分用斜体表示的原因。

安南斯

这是因为该网站JavaScript用于显示这些详细信息,而BeautifulSoup本身并不与之交互JS

首先尝试找出您要抓取的元素是否存在于页面源中,如果可以的话,您可以抓取几乎所有内容!在您的情况下,按钮/跨度标签不在页面源中(意味着已隐藏或已通过脚本提取)

<button>页面源中没有标签:在此处输入图片说明

因此,我建议使用Selenium作为解决方案,并且尝试了该网站的基本知识。

这是我使用的代码:

from selenium import webdriver

option = webdriver.ChromeOptions()
option.add_argument('--headless')
option.binary_location = r'Your chrome.exe file path'

browser = webdriver.Chrome(executable_path=r'Your chromedriver.exe file path', options=option)

browser.get(r"https://www.winamax.fr/paris-sportifs/sports/1/7/4")

span_tags = browser.find_elements_by_tag_name('span')
for span_tag in span_tags:
    print(span_tag.text)

browser.quit()

这是输出:

在此处输入图片说明

此输出中存在一些垃圾数据,但这是供您确定所需的内容和不需要的内容!

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用Beautifulsoup和Python进行Web抓取不起作用

来自分类Dev

使用Python,BeautifulSoup进行Web抓取

来自分类Dev

使用python和BeautifulSoup进行网络抓取

来自分类Dev

Python - 使用 BeautifulSoup 和 Urllib 进行抓取

来自分类Dev

使用python 2.7和beautifulsoup 4进行网站抓取

来自分类Dev

在Wikipedia上使用BeautifulSoup进行Web抓取

来自分类Dev

使用BeautifulSoup到Dataframe进行Web抓取

来自分类Dev

使用 BeautifulSoup 进行网页抓取 -- Python

来自分类Dev

使用 Python BeautifulSoup 进行网页抓取

来自分类Dev

如何使用BeautifulSoup和Python抓取页面?

来自分类Dev

使用 Beautifulsoup 和 Python 抓取复杂的表格

来自分类Dev

使用 Python 和 BeautifulSoup 抓取 alt 标签

来自分类Dev

使用BeautifulSoup遍历URL列表进行Web抓取

来自分类Dev

使用BeautifulSoup进行Web抓取-无法提取表行

来自分类Dev

使用python,BeautifulSoup和pandas'read_html'进行网页抓取的问题

来自分类Dev

使用BeautifulSoup使用python进行网络抓取,发现错误

来自分类Dev

在Python标签中使用BeautifulSoup进行网络抓取

来自分类Dev

使用python beautifulsoup进行网络抓取,等号后获取值

来自分类Dev

使用BeautifulSoup Python抓取网页

来自分类Dev

使用BeautifulSoup Python抓取网页

来自分类Dev

无法使用python和beautifulsoup抓取网页中的某些href

来自分类Dev

如何使用Python 3.5和BeautifulSoup抓取href

来自分类Dev

如何使用Python和BeautifulSoup抓取多个Google页面

来自分类Dev

使用Python和BeautifulSoup抓取时模拟点击链接

来自分类Dev

使用python和beautifulsoup抓取多页网站

来自分类Dev

使用python和BeautifulSoup抓取数据时,Float的无效侧向

来自分类Dev

使用 BeautifulSoup 和 Python 抓取多个表格页面

来自分类Dev

使用 python 和 BeautifulSoup 抓取不完整的标签

来自分类Dev

网页抓取 - 从使用 BeautifulSoup 和 Python 的类中获取文本?

Related 相关文章

  1. 1

    使用Beautifulsoup和Python进行Web抓取不起作用

  2. 2

    使用Python,BeautifulSoup进行Web抓取

  3. 3

    使用python和BeautifulSoup进行网络抓取

  4. 4

    Python - 使用 BeautifulSoup 和 Urllib 进行抓取

  5. 5

    使用python 2.7和beautifulsoup 4进行网站抓取

  6. 6

    在Wikipedia上使用BeautifulSoup进行Web抓取

  7. 7

    使用BeautifulSoup到Dataframe进行Web抓取

  8. 8

    使用 BeautifulSoup 进行网页抓取 -- Python

  9. 9

    使用 Python BeautifulSoup 进行网页抓取

  10. 10

    如何使用BeautifulSoup和Python抓取页面?

  11. 11

    使用 Beautifulsoup 和 Python 抓取复杂的表格

  12. 12

    使用 Python 和 BeautifulSoup 抓取 alt 标签

  13. 13

    使用BeautifulSoup遍历URL列表进行Web抓取

  14. 14

    使用BeautifulSoup进行Web抓取-无法提取表行

  15. 15

    使用python,BeautifulSoup和pandas'read_html'进行网页抓取的问题

  16. 16

    使用BeautifulSoup使用python进行网络抓取,发现错误

  17. 17

    在Python标签中使用BeautifulSoup进行网络抓取

  18. 18

    使用python beautifulsoup进行网络抓取,等号后获取值

  19. 19

    使用BeautifulSoup Python抓取网页

  20. 20

    使用BeautifulSoup Python抓取网页

  21. 21

    无法使用python和beautifulsoup抓取网页中的某些href

  22. 22

    如何使用Python 3.5和BeautifulSoup抓取href

  23. 23

    如何使用Python和BeautifulSoup抓取多个Google页面

  24. 24

    使用Python和BeautifulSoup抓取时模拟点击链接

  25. 25

    使用python和beautifulsoup抓取多页网站

  26. 26

    使用python和BeautifulSoup抓取数据时,Float的无效侧向

  27. 27

    使用 BeautifulSoup 和 Python 抓取多个表格页面

  28. 28

    使用 python 和 BeautifulSoup 抓取不完整的标签

  29. 29

    网页抓取 - 从使用 BeautifulSoup 和 Python 的类中获取文本?

热门标签

归档