在Python中删除多行HTML

debugcn 发表于 Dev

戴维·梅特卡夫

我正在尝试剥离HTML文档的特定块，尤其是Javascript（<script></script>）和内联CSS（<style></style>）。目前，我正在尝试使用re.sub()Multiline，但运气不佳。有小费吗？

import re

s = '''<html>
<head>
  <title>Some Template</title>
  <script type="text/javascript" src="{path to Library}/base.js"></script>
  <script type="text/javascript" src="something.js"></script>
  <script type="text/javascript" src="simple.js"></script>
</head>
<body>
  <script type="text/javascript">
    // HelloWorld template
    document.write(examples.simple.helloWorld());
  </script>
</body>
</html>'''

print(re.sub('<script.*script>', '', s, count=0, flags=re.M))

JRod炸药

另外，由于您正在解析和修改HTML，因此建议您使用类似BeautifulSoup的HTML解析器。

如果您只想剥离/删除scriptHTML树中的所有标签。您可以使用.decompose()或.extract()。

.extract()将返回提取的标签，而.decompose()只会销毁它。

from bs4 import BeautifulSoup

soup = BeautifulSoup(s, "html.parser")
for i in soup('script'):
    i.decompose()

print(soup)

如评论中所述，您可以对HTML树进行其他修改。您可以参考文档以获取更多信息。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-17

我来说两句

0条评论

登录后参与评论

来自分类Dev

在Python中删除多行

来自分类Dev

如何删除多行HTML排列中的空白？

来自分类Dev

如何通过 Python 删除文本中的多行？

来自分类Dev

从表中删除多行

来自分类Dev

在JavaScript中删除多行

来自分类Dev

在datagridview中删除多行

来自分类Dev

从表中删除多行

来自分类Dev

删除文件中的多行

来自分类Dev

删除 ListVIew 中的多行

来自分类Dev

删除liferay中的多行

来自分类Dev

如何使用python删除文本文件中的多行？

来自分类Dev

在html中显示多行

来自分类Dev

在Python中删除HTML块

来自分类Dev

在SQLITE中删除多行（android）

来自分类Dev

从多行VIM中删除变量

来自分类Dev

在SQLITE中删除多行（android）

来自分类Dev

Linux删除文件中的多行

来自分类Dev

在vim中删除多行注释

来自分类Dev

替换（删除）文件中的多行

来自分类Dev

通过Python在HTML中插入多行超链接

来自分类Dev

Python中的多行记录

来自分类Dev

Python中的多行注释

来自分类Dev

使用sed删除多行HTML注释

来自分类Dev

从python中的多行字符串中删除模式匹配的行

来自分类Dev

从python中的多行字符串中删除模式匹配的行

来自分类Dev

如何从python中的多行字符串中删除特定的空行？

来自分类Dev

在JavaScript中处理多行HTML

来自分类Dev

折叠 html 表中的多行

来自分类Dev

如何基于跨越多行的模式从文件中删除多行？

Related 相关文章

文章