遍历页面元素beautifulsoup

波迪

我正在尝试为受欢迎的汽车网站构建快速刮板。我可以得到一辆车的结果,但无法弄清楚如何退回页面上的所有车。findAll()抛出错误。任何帮助,将不胜感激

from bs4 import BeautifulSoup
import requests

#search = input('Enter car to search: ')
url = 'https://www.donedeal.ie/cars?words=bmw' #+ search
site = requests.get(url)
page = site.content
soup = BeautifulSoup(page, 'html.parser')
print("URL: ", site.url)

if site.status_code == 200:
    print("HTTP Status: ", site.status_code, "\n")
else:
    print("Bad HTTP response", "\n")

cars = soup.find('div', attrs={'class': 'top-info'})
county = soup.find('span', attrs={'class': 'county-disp icon-pin'})
span = cars.find('span')

for result in span:
    for result2 in county:
        print(result, "-", result2)
阿齐兹·阿尔托(Aziz Alto)

我不确定您要提取哪些信息。假设您需要汽车类型和县信息,findAll()可以使用以下方法:

>>> cars = soup.findAll('div', attrs={'class': 'top-info'})
>>> for car in cars:
...     loc = car.find('span', attrs={'class': 'county-disp icon-pin'})
...     if loc:
...         print('type:', car.text, 'location:', loc.text)
...     else:
...         print('type:', car.text)
type: Bmw 320 CdTipperary location: Tipperary
type: Bmw 520d MsportDonegal location: Donegal
type: BMW2004
type: BMW2010
type: Bmw2010
type: Bmw2000
type: Bmw2001
type: Bmw2004
type: Bmw2004
type: bmw2003
type: BMW2009
type: Bmw2010
type: Bmw1990
type: BMW2004
type: BMW2012
type: Bmw2000
type: bmw2001
type: BMW2004
type: BMW2008
type: BMW2005
type: Bmw2006
type: Bmw2002
type: BMW2004
type: Bmw2000
type: BMW2003
type: BMW2011
type: BMW2001
type: Bmw2000
type: Bmw2002
type: BMW2007

请注意,仅一页。您将不得不执行其他页面的URL。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何让javascript遍历其他页面元素

来自分类Dev

BeautifulSoup 仅识别页面中的几个元素

来自分类Dev

使用for-each循环遍历页面时的selenium stale元素

来自分类Dev

为什么BeautifulSoup不解析页面的所有元素?

来自分类Dev

BeautifulSoup从html页面上的列表元素过滤数据

来自分类Dev

遍历元素

来自分类Dev

Python BeautifulSoup:遍历表

来自分类Dev

在遍历数组时使用jQuery .get()前置的元素在页面刷新时以不同顺序加载

来自分类Dev

org.openqa.selenium.StaleElementReferenceException:在遍历列表时元素未附加到页面文档

来自分类Dev

如何遍历wxNotebook的页面?

来自分类Dev

遍历所有页面

来自分类Dev

使用beautifulsoup python从页面中抓取特定元素时遇到问题

来自分类Dev

Selenium 页面源中缺少 HTML 元素,但可以使用 BeautifulSoup 找到

来自分类Dev

如果循环浏览多个页面时页面上不存在元素,则跳过项目 - BeautifulSoup 和 Python

来自分类Dev

使用BeautifulSoup / Python遍历DOM

来自分类Dev

使用BeautifulSoup遍历整个表格

来自分类Dev

BeautifulSoup-查找+遍历表格

来自分类Dev

使用BeautifulSoup遍历HTML标签

来自分类Dev

Beautifulsoup 无法读取页面

来自分类Dev

延迟遍历元素

来自分类Dev

遍历li元素

来自分类Dev

硒:遍历元素组

来自分类Dev

硒:遍历元素组

来自分类Dev

遍历$ element的子元素

来自分类Dev

遍历BST的元素

来自分类Dev

遍历并修改列表元素

来自分类Dev

Stackpanel的遍历元素

来自分类Dev

轮播-如何遍历元素?

来自分类Dev

Selenium WebDriver元素遍历