我对编程很陌生,似乎无法解决以下数据提取问题。
这就是我的数据的样子(黄色 = 我要提取的数据):
提取标题、价格和时间工作正常:
# Title
advertTitle = firstAdvert.find_all(
"section", {"class": "aditem-main"})[0].find("h2").text.encode("utf-8").strip().replace("\n", "")
# Price
advertPrice = firstAdvert.find_all(
"section", {"class": "aditem-details"})[0].find("strong").text.encode("utf-8").strip().replace("\n", "")
# Time
advertTimeAdded = advertTitle = firstAdvert.find_all(
"section", {"class": "aditem-addon"})[0].text.encode("utf-8").strip().replace("\n", "")
但我的主要问题是:我将如何从中提取“ 79924470 ”:
<article class="aditem" data-adid="79924470">
我尝试过例如:
item.find_all("article", "data-adid"}
感谢您为我指明正确的方向!
可以使用一系列选择来获取各种元素,如下所示:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "lxml")
print soup.article['data-adid']
image = soup.select('div.imagebox.srpimagebox')[0]
print image['data-href']
print image['data-imgsrc']
print soup.select('section h2 a')[0].text
print ', '.join([v.strip() for v in soup.select('section.aditem-details')[0].text.strip().split('\n')])
print soup.select('section.aditem-addon')[0].get_text(strip=True)
其中显示:
79924470
/ref/79924470
https://imgserver.com/012004.JPG
I am a title
12.380€, 50111, Cityname, 25km
Today, 16:19
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句