如何使用Python和BeautifulSoup中的类过滤标签?

m4rk_Henry_ftw

我正在尝试使用beautifulsoup HTML解析器从网站上抓取图像。

该站点上的每个图像都有2种图像标签。一个用于缩略图,另一个用于较大尺寸的图像,该图像仅在单击缩略图并展开后才会显示。较大的标签包含class =“ expanded-image”属性。

我正在尝试通过HTML进行解析,并获取包含图像源的扩展图像的“ src”属性。

当我尝试执行代码时,什么也没有发生。它只是说过程完成了,没有刮任何图像。但是,当我不尝试过滤代码并仅将tag作为参数时,它将下载所有缩略图。

这是我的代码:

import webbrowser, requests, os
from bs4 import BeautifulSoup

def getdata(url):
    r = requests.get(url)
    return r.text

htmldata = getdata('https://boards.4chan.org/a/thread/30814')
soup = BeautifulSoup(htmldata, 'html.parser')

list = []

for i in soup.find_all("img",{"class":"expanded-thumb"}):
    list.append(i['src'].replace("//","https://"))

def download(url, pathname):
    if not os.path.isdir(pathname):
        os.makedirs(pathname)

    filename = os.path.join(pathname, url.split("/")[-1])
    response = requests.get(url, stream=True)

    with open(filename, "wb") as f:
        f.write(response.content)

for a in list:
    download(a,"file")
路德维斯珀斯

使用“列表”作为变量名可能会遇到问题。这是python中的一种类型。从此开始(用所需的任何线程替换TEST_4CHAN_URL),并结合上面注释中的建议。

import requests
from bs4 import BeautifulSoup

TEST_4CHAN_URL = "https://boards.4chan.org/a/thread/<INSERT_THREAD_ID_HERE>"

def getdata(url):
    r = requests.get(url)
    return r.text

htmldata = getdata(TEST_4CHAN_URL)
soup = BeautifulSoup(htmldata, "html.parser")

src_list = []

for i in soup.find_all("a", {"class":"fileThumb"}):
    src_list.append(i['href'].replace("//", "https://"))

print(src_list)

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何使用 Selenium 和 BeautifulSoup 从标签中获取文本

来自分类Dev

网页抓取 - 从使用 BeautifulSoup 和 Python 的类中获取文本?

来自分类Dev

使用 BeautifulSoup 和 Python 从多个标签中提取文本,例如具有类的 h1 和 p 标签

来自分类Dev

使用 Python 和 BeautifulSoup 抓取 alt 标签

来自分类Dev

如何使用python和BeautifulSoup从xml中删除完整元素

来自分类Dev

如何使用python和BeautifulSoup在xml中提取父元素的标签

来自分类Dev

使用Python和BeautifulSoup从HTML中删除某些类型的标签(无字符串操作)

来自分类Dev

如何使用BeautifulSoup从Python中的字符串中删除html标签

来自分类Dev

如何使用Python中的BeautifulSoup解析多个正文标签中的文本?

来自分类Dev

如何使用python在beautifulsoup中获取标签内容并在一行中打印?

来自分类Dev

如何使用BeautifulSoup从Python中的字符串中删除html标签

来自分类Dev

使用Python和Regex,如何从html中删除<sup>标签?

来自分类Dev

使用 Python 和 BeautifulSoup 提取数字(多个跨度和类)

来自分类Dev

使用Python和BeautifulSoup根据属性解析“ a”标签

来自分类Dev

使用Python和BeautifulSoup访问网页中标签的标题属性

来自分类Dev

使用BeautifulSoup和Python从item标签获取地址文本

来自分类Dev

使用 python 和 BeautifulSoup 抓取不完整的标签

来自分类Dev

使用 Python、Selenium 和 BeautifulSoup 来抓取标签的内容?

来自分类Dev

如何使用Python BeautifulSoup提取xml文档中的标签偏移量

来自分类Dev

如何在Python中使用Beautifulsoup在div中查找所有锚标签

来自分类Dev

python - 如何使用beautifulsoup在网页中的某个文本之前获取所有<p>标签?

来自分类Dev

如何使用Python在BeautifulSoup中的同一div中提取具有相同标签的元素?

来自分类Dev

使用 BeautifulSoup,如何在类中搜索元素类?

来自分类Dev

使用BeautifulSoup4在Python中存储标签中的数据

来自分类Dev

如何使用BeautifulSoup从Python中基于数据自动属性的div类中抓取内容?

来自分类Dev

如何使用BeautifulSoup和Python抓取页面?

来自分类Dev

如何使用BeautifulSoup和Python获取元素

来自分类Dev

从标签beautifulsoup python中提取类名

来自分类Dev

如何使用jQuery选择div,ul,li和标签中的类?

Related 相关文章

  1. 1

    如何使用 Selenium 和 BeautifulSoup 从标签中获取文本

  2. 2

    网页抓取 - 从使用 BeautifulSoup 和 Python 的类中获取文本?

  3. 3

    使用 BeautifulSoup 和 Python 从多个标签中提取文本,例如具有类的 h1 和 p 标签

  4. 4

    使用 Python 和 BeautifulSoup 抓取 alt 标签

  5. 5

    如何使用python和BeautifulSoup从xml中删除完整元素

  6. 6

    如何使用python和BeautifulSoup在xml中提取父元素的标签

  7. 7

    使用Python和BeautifulSoup从HTML中删除某些类型的标签(无字符串操作)

  8. 8

    如何使用BeautifulSoup从Python中的字符串中删除html标签

  9. 9

    如何使用Python中的BeautifulSoup解析多个正文标签中的文本?

  10. 10

    如何使用python在beautifulsoup中获取标签内容并在一行中打印?

  11. 11

    如何使用BeautifulSoup从Python中的字符串中删除html标签

  12. 12

    使用Python和Regex,如何从html中删除<sup>标签?

  13. 13

    使用 Python 和 BeautifulSoup 提取数字(多个跨度和类)

  14. 14

    使用Python和BeautifulSoup根据属性解析“ a”标签

  15. 15

    使用Python和BeautifulSoup访问网页中标签的标题属性

  16. 16

    使用BeautifulSoup和Python从item标签获取地址文本

  17. 17

    使用 python 和 BeautifulSoup 抓取不完整的标签

  18. 18

    使用 Python、Selenium 和 BeautifulSoup 来抓取标签的内容?

  19. 19

    如何使用Python BeautifulSoup提取xml文档中的标签偏移量

  20. 20

    如何在Python中使用Beautifulsoup在div中查找所有锚标签

  21. 21

    python - 如何使用beautifulsoup在网页中的某个文本之前获取所有<p>标签?

  22. 22

    如何使用Python在BeautifulSoup中的同一div中提取具有相同标签的元素?

  23. 23

    使用 BeautifulSoup,如何在类中搜索元素类?

  24. 24

    使用BeautifulSoup4在Python中存储标签中的数据

  25. 25

    如何使用BeautifulSoup从Python中基于数据自动属性的div类中抓取内容?

  26. 26

    如何使用BeautifulSoup和Python抓取页面?

  27. 27

    如何使用BeautifulSoup和Python获取元素

  28. 28

    从标签beautifulsoup python中提取类名

  29. 29

    如何使用jQuery选择div,ul,li和标签中的类?

热门标签

归档