使用BeautifulSoup隔离脚本

阿迪托·布莱恩

在此处输入图片说明

我已将整个HTML页面加载到BeautifulSoup中,是否可以隔离该词典集合?

  • 类型(黄色)在页面中仅出现一次,没有重复项

这是我用来导入HTML文件的代码(不能使用urllib):从bs4导入BeautifulSoup

with open('/content/drive/My Drive/Colab Notebooks/Projects/20200710_StreetEasy_WebScraping/1.html') as f:
  contents = f.read()
  soup = BeautifulSoup(contents, 'lxml')
print(soup)

搜索a标签返回输出

a = soup.find_all('a')
a
[<a class="html-attribute-value html-resource-link" href="https://cdn-assets-s3.streeteasy.com/assets/manifest-c93475b02bd2409b4a52e21af023e5d5f489f19500d234a3660fe4d35069bbac.json" rel="noreferrer noopener" target="_blank">//cdn-assets-s3.streeteasy.com/assets/manifest-c93475b02bd2409b4a52e21af023e5d5f489f19500d234a3660fe4d35069bbac.json</a>,
 <a class="html-attribute-value html-resource-link" href="https://browser.sentry-cdn.com/5.19.0/bundle.min.js" rel="noreferrer noopener" target="_blank">https://browser.sentry-cdn.com/5.19.0/bundle.min.js</a>,
 <a class="html-attribute-value html-resource-link" href="https://cdn-assets-s3.streeteasy.com/assets/jquery-fe1be651ec56a9cc875a437f09db5b175cc6acf4b911bed0ef265955a099db55.js" rel="noreferrer noopener" target="_blank">//cdn-assets-s3.streeteasy.com/assets/jquery-fe1be651ec56a9cc875a437f09db5b175cc6acf4b911bed0ef265955a099db55.js</a>,
...

搜索脚本标签不返回任何输出

import re
scripts = soup.find_all("script")
scripts
[]

导入文档时我可能做错了什么?

流体光

您可以使用find_all中字符串参数来过滤包含JSON的脚本标签@context

scripts = soup.find_all("script", string=re.compile("@context"))

然后遍历您的scripts并删除//<![CDATA[加载JSON//]]

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用BeautifulSoup在脚本标签内找到键

来自分类Dev

使用beautifulsoup从脚本标签中抓取数据

来自分类Dev

使用有光泽的隔离

来自分类Dev

无法将脚本隔离到iframe

来自分类Dev

使用beautifulsoup删除p标签内的脚本标签

来自分类Dev

如何使用BeautifulSoup提取JSON脚本元素

来自分类Dev

使用beautifulsoup删除p标签内的脚本标签

来自分类Dev

使用隔离范围删除指令

来自分类Dev

使用指令创建隔离范围

来自分类Dev

在隔离的环境中使用eval()

来自分类Dev

使用隔离对列表进行排序

来自分类Dev

使用隔离范围删除指令

来自分类Dev

使用HTK的隔离数字识别

来自分类Dev

如何使用间距隔离样式

来自分类Dev

在 bs4/beautifulSoup 中隔离一个属性

来自分类Dev

使用BeautifulSoup从单个博客存档页面提取多个帖子,无需脚本

来自分类Dev

使用BeautifulSoup从单个博客存档页面提取多个帖子,无需脚本

来自分类Dev

如何使用beautifulsoup4用我的python脚本抓取更多亚马逊产品?

来自分类Dev

如何使用多个隔离来满足请求

来自分类Dev

如何使用Python设置SQLite隔离级别

来自分类Dev

使用xattr设置Mac OSX隔离属性

来自分类Dev

使用Docker隔离PHP应用程序

来自分类Dev

使用Windows 8隔离存储保存信息

来自分类Dev

使用jQuery隔离网页上的元素

来自分类Dev

使用Fabricator隔离测试STI基类

来自分类Dev

使用controllerAs语法从“ this”访问指令的隔离范围

来自分类Dev

使用@EnableBatchProcessing指定JobRepository隔离级别

来自分类Dev

使用OpenCV进行对象检测和隔离

来自分类Dev

使用VLAN将设备与网络广播隔离

Related 相关文章

热门标签

归档