Web在python中抓取xml页面?

骑单车的人

我对如何从给定的xml页面中删除所有链接(仅包含字符串“ mp3”)感到困惑。以下代码仅返回空括号:

# Import required modules 
from lxml import html 
import requests 
  
# Request the page 
page = requests.get('https://feeds.megaphone.fm/darknetdiaries') 
  
# Parsing the page 
# (We need to use page.content rather than  
# page.text because html.fromstring implicitly 
# expects bytes as input.) 
tree = html.fromstring(page.content)   
  
# Get element using XPath 
buyers = tree.xpath('//enclosure[@url="mp3"]/text()') 
print(buyers)

我使用@url错误吗?

我正在寻找的链接:

在此处输入图片说明

任何帮助将不胜感激!

对冲猪

怎么了?

以下将xpath无法正常工作,正如您提到的那样,它也是@urltext()

//enclosure[@url="mp3"]/text()

url任何属性//enclosure都应包含mp3然后返回/@url

更改此行:

buyers = tree.xpath('//enclosure[@url="mp3"]/text()') 

buyers = tree.xpath('//enclosure[contains(@url,"mp3")]/@url') 

输出量

['https://www.podtrac.com/pts/redirect.mp3/traffic.megaphone.fm/ADV9231072845.mp3?updated=1610644901',
 'https://www.podtrac.com/pts/redirect.mp3/traffic.megaphone.fm/ADV2643452814.mp3?updated=1609788944',
 'https://www.podtrac.com/pts/redirect.mp3/traffic.megaphone.fm/ADV5381316822.mp3?updated=1607279433',
 'https://www.podtrac.com/pts/redirect.mp3/traffic.megaphone.fm/ADV9145504181.mp3?updated=1607280708',
 'https://www.podtrac.com/pts/redirect.mp3/traffic.megaphone.fm/ADV4345070838.mp3?updated=1606110384',
 'https://www.podtrac.com/pts/redirect.mp3/traffic.megaphone.fm/ADV8112097820.mp3?updated=1604866665',
 'https://www.podtrac.com/pts/redirect.mp3/traffic.megaphone.fm/ADV2164178070.mp3?updated=1603781321',
 'https://www.podtrac.com/pts/redirect.mp3/traffic.megaphone.fm/ADV1107638673.mp3?updated=1610220449',
...]

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Python Web抓取页面循环

来自分类Dev

动态加载页面的python web抓取

来自分类Dev

Selenium Python中的Web抓取

来自分类Dev

Web在python中抓取text()

来自分类Dev

使用 BeautifulSoup 在 python 中抓取多个页面

来自分类Dev

在主页中抓取页面?

来自分类Dev

Web抓取中的空CSV-Python

来自分类Dev

python中的Web抓取未加载数据

来自分类Dev

如何使用python HTMLParser从HTML页面中抓取特定值

来自分类Dev

属性错误 - 使用 WebDriver 在 Python 中抓取页面...?

来自分类Dev

Python + scrapy + 网页抓取:页面未被抓取

来自分类Dev

避免从已经被抓取的页面中抓取数据

来自分类Dev

Python Web 抓取重定向到其他页面的页面

来自分类Dev

Python Web抓取问题

来自分类Dev

Python Web抓取失败

来自分类Dev

使用Python请求抓取页面

来自分类Dev

python beautifulsoup抓取存档页面

来自分类Dev

使用 Python 抓取特定页面

来自分类Dev

从XML子页面抓取位置不同的项目

来自分类Dev

CDATA之间的文件中的Python XML抓取IP

来自分类Dev

每天抓取网站 xml 代码以更新 python 中的 csv 文件

来自分类Dev

跨多个页面的R Web抓取

来自分类Dev

Web使用BeautifulSoup抓取多个页面

来自分类Dev

熊猫数据框中的多个输出(Python Web抓取)

来自分类Dev

无法获取Python Web抓取中的文章链接

来自分类Dev

使用Python脚本响应中的请求进行Web抓取

来自分类Dev

python web 抓取漂亮的汤并添加到列表中

来自分类Dev

Python Web抓取-当页面通过JS加载内容时如何获取漂亮的汤料?

来自分类Dev

Python Web抓取数组,但首先要转到默认页面