python beautifulsoup解析'a'标签和href时没有链接

debugcn 发表于 Dev

在里面

抱歉，如果有重复，我进行了搜索，但找不到答案。我正在编写一个刮板，以刮擦由Web服务器提供的默认目录索引页。的HTML看起来像这样

<html>
<head><title>Index of /Mysongs</title></head>
<body bgcolor="white">
<h1>Index of /Mysongs</h1><hr><pre><a href="../">../</a>
<a href="Mysong1.mkv">Mysong1.mp3</a>                        10-May-2016 07:24           183019
<a href="Mysong2.mkv">Mysong2.ogg</a>                        10-May-2016 07:27           177205

该href链接看起来仅是文本，而不是url（<a href="Mysong2.mkv">），但指向文本时，它会在浏览器的状态栏中显示该链接（http://127.0.0.1/Mysongs/Mysong2.ogg）

我试图使用beautifulsoup提取网址，像这样

#!/usr/bin/python

import httplib2
import sys
from BeautifulSoup import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request(sys.argv[1])
for link in BeautifulSoup(response, parseOnlyThese=SoupStrainer('a')):
    print link.get('href')

而且我无法获得像这样的链接http://127.0.0.1/Mysongs/Mysong2.ogg，而只有<a href="Mysong1.mkv">Mysong1.mp3</a> 10-May-2016 07:24

我应该使用sys.argv[1]构建类似的href链接吗

print sys.argv[1] + link.get('href')

还是有一些更好的方法来做到这一点？

编辑：：当前输出为

Mysong1.mp3
Mysong2.ogg

预期产量：

http://127.0.0.1/Mysong1.mp3
http://127.0.0.1/Mysong1.0gg

阿尼·梅农（Ani Menon）

是的，您唯一的选择是添加基本URL。但是不要这样添加：

print sys.argv[1] + link.get('href')

用这个：

from urlparse import urljoin
urljoin('http://something.com/random/abc.html', '../../music/MySong.mp3')

在您的方法中，可能无法识别和处理相对路径，请对其进行urljoin处理。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-21

我来说两句

0条评论

登录后参与评论

来自分类Dev

Python和BeautifulSoup URL解析

来自分类Dev

使用Python和BeautifulSoup根据属性解析“ a”标签

来自分类常见问题

python BeautifulSoup解析表

来自分类Dev

解析HTML Python，BeautifulSoup

来自分类Dev

Python与BeautifulSoup解析表

来自分类Dev

Python BeautifulSoup解析问题

来自分类Dev

Python BeautifulSoup HTML解析

来自分类Dev

使用Python中的BeautifulSoup解析<TR> </ TR>标签并打印元素

来自分类Dev

使用beautifulsoup python抓取时解析div中的json对象

来自分类Dev

使用BeautifulSoup和Python语法选择，键入和解析？

来自分类Dev

使用BeautifulSoup4和Python 3解析html表

来自分类Dev

使用BeautifulSoup和Python解析Reddit搜索结果

来自分类Dev

Python BeautifulSoup没有标签并返回空

来自分类Dev

使用 Python 中的 BeautifulSoup 解析具有不同数据的重复标签的 XML 文件

来自分类Dev

Python用BeautifulSoup解析HTML

来自分类Dev

用Python Beautifulsoup解析JS

来自分类Dev

使用BeautifulSoup进行Python解析

来自分类Dev

Beautifulsoup 解析 html 标签异常

来自分类Dev

在Python BeautifulSoup中提取具有href属性的链接

来自分类Dev

如何使用Python中的BeautifulSoup解析多个正文标签中的文本？

来自分类Dev

如何使用python BeautifulSoup解析与唯一值关联的名称空间标签

来自分类Dev

BeautifulSoup 如何解析没有标签的元素

来自分类Dev

使用Python和BeautifulSoup解析HTML-在<a>标记内外获取文本

来自分类Dev

我的解析Beautifulsoup没有文字

来自分类Dev

使用 ElementTree 和 BeautifulSoup 解析文件：有没有办法按标签级别数解析文件？

来自分类Dev

Python：使用BeautifulSoup解析锚文本

来自分类Dev

解析HTML中的Python BeautifulSoup错误

来自分类Dev

使用beautifulsoup / python解析html页面

来自分类Dev

python中的beautifulsoup解析错误-垃圾字符

Related 相关文章

文章