使用BeautifulSoup隔离脚本

debugcn 发表于 Dev

阿迪托·布莱恩

我已将整个HTML页面加载到BeautifulSoup中，是否可以隔离该词典集合？

类型（黄色）在页面中仅出现一次，没有重复项

这是我用来导入HTML文件的代码（不能使用urllib）：从bs4导入BeautifulSoup

with open('/content/drive/My Drive/Colab Notebooks/Projects/20200710_StreetEasy_WebScraping/1.html') as f:
  contents = f.read()
  soup = BeautifulSoup(contents, 'lxml')
print(soup)

搜索a标签返回输出

a = soup.find_all('a')
a
[<a class="html-attribute-value html-resource-link" href="https://cdn-assets-s3.streeteasy.com/assets/manifest-c93475b02bd2409b4a52e21af023e5d5f489f19500d234a3660fe4d35069bbac.json" rel="noreferrer noopener" target="_blank">//cdn-assets-s3.streeteasy.com/assets/manifest-c93475b02bd2409b4a52e21af023e5d5f489f19500d234a3660fe4d35069bbac.json</a>,
 <a class="html-attribute-value html-resource-link" href="https://browser.sentry-cdn.com/5.19.0/bundle.min.js" rel="noreferrer noopener" target="_blank">https://browser.sentry-cdn.com/5.19.0/bundle.min.js</a>,
 <a class="html-attribute-value html-resource-link" href="https://cdn-assets-s3.streeteasy.com/assets/jquery-fe1be651ec56a9cc875a437f09db5b175cc6acf4b911bed0ef265955a099db55.js" rel="noreferrer noopener" target="_blank">//cdn-assets-s3.streeteasy.com/assets/jquery-fe1be651ec56a9cc875a437f09db5b175cc6acf4b911bed0ef265955a099db55.js</a>,
...

搜索脚本标签不返回任何输出

import re
scripts = soup.find_all("script")
scripts
[]

导入文档时我可能做错了什么？

流体光

您可以使用find_all中的字符串参数来过滤包含JSON的脚本标签@context

scripts = soup.find_all("script", string=re.compile("@context"))

然后遍历您的scripts并删除//<![CDATA[和加载JSON//]]

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-2

我来说两句

0条评论

登录后参与评论

来自分类Dev

使用beautifulsoup删除p标签内的脚本标签

来自分类Dev

使用Windows 8隔离存储保存信息

来自分类Dev

使用xattr设置Mac OSX隔离属性

来自分类Dev

使用BeautifulSoup从单个博客存档页面提取多个帖子，无需脚本

来自分类Dev

使用隔离范围删除指令

来自分类Dev

使用指令创建隔离范围

来自分类Dev

使用Fabricator隔离测试STI基类

来自分类Dev

使用controllerAs语法从“ this”访问指令的隔离范围

来自分类Dev

使用jQuery隔离网页上的元素

来自分类Dev

如何使用多个隔离来满足请求

来自分类Dev

在隔离的环境中使用eval（）

来自分类Dev

使用@EnableBatchProcessing指定JobRepository隔离级别

来自分类Dev

如何使用Python设置SQLite隔离级别

来自分类Dev

使用OpenCV进行对象检测和隔离

来自分类Dev

使用Docker隔离PHP应用程序

来自分类Dev

使用隔离对列表进行排序

来自分类Dev

使用BeautifulSoup在脚本标签内找到键

来自分类Dev

使用beautifulsoup从脚本标签中抓取数据

来自分类Dev

如何使用BeautifulSoup提取JSON脚本元素

来自分类Dev

使用VLAN将设备与网络广播隔离

来自分类Dev

使用BeautifulSoup从单个博客存档页面提取多个帖子，无需脚本

来自分类Dev

使用隔离范围删除指令

来自分类Dev

使用HTK的隔离数字识别

来自分类Dev

使用beautifulsoup删除p标签内的脚本标签

来自分类Dev

如何使用间距隔离样式

来自分类Dev

无法将脚本隔离到iframe

来自分类Dev

在 bs4/beautifulSoup 中隔离一个属性

来自分类Dev

如何使用beautifulsoup4用我的python脚本抓取更多亚马逊产品？

来自分类Dev

使用有光泽的隔离

Related 相关文章

文章