使用正则表达式从网页中提取表格

多汁的

我想从该站点提取包含IP块的表

查看HTML源代码,我可以清楚地看到所需区域的结构如下:

[CONTENT BEFORE TABLE]
<table border="1" cellpadding="6" bordercolor="#000000">
[IP ADDRESSES AND OTHER INFO]
</table>
[CONTENT AFTER TABLE]

所以我写了这个小片段:

import urllib2,re
from lxml import html
response = urllib2.urlopen('http://www.nirsoft.net/countryip/za.html')

content = response.read()

print re.match(r"(.*)<table border=\"1\" cellpadding=\"6\" bordercolor=\"#000000\">(.*)</table>(.*)",content)

页面的内容被提取(并且正确)而没有问题。None但是,总是返回正则表达式匹配项(此处的打印仅用于调试)。

考虑到页面的结构,我不明白为什么没有匹配项。我希望有三组,第二组是表内容。

用户2555451

默认情况下,.不匹配换行符。您需要指定dot-all标志以使其执行以下操作:

re.match(..., content, re.DOTALL)

下面是一个演示:

>>> import re
>>> content = '''
... [CONTENT BEFORE TABLE]
... <table border="1" cellpadding="6" bordercolor="#000000">
... [IP ADDRESSES AND OTHER INFO]
... </table>
... [CONTENT AFTER TABLE]
... '''
>>> pat = r"(.*)<table border=\"1\" cellpadding=\"6\" bordercolor=\"#000000\">(.*)</table>(.*)"
>>> re.match(pat, content, re.DOTALL)
<_sre.SRE_Match object at 0x02520520>
>>> re.match(pat, content, re.DOTALL).group(2)
'\n[IP ADDRESSES AND OTHER INFO]\n'
>>>

也可以通过使用re.S或将其放置(?s)在图案的开头来激活全点标记

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用正则表达式从网页中提取表格

来自分类Dev

在R中使用正则表达式从网页中提取文本和数字

来自分类Dev

如何在R中使用正则表达式从URL中提取Google表格ID?

来自分类Dev

使用正则表达式从文本中提取帮助

来自分类Dev

使用正则表达式从网址中提取日期

来自分类Dev

使用正则表达式从地址中提取数字

来自分类Dev

使用正则表达式从列表中提取位置

来自分类Dev

我使用正则表达式从python中的网页中提取信息,但是遇到“返回”时失败了吗?

来自分类Dev

我使用正则表达式从python中的网页中提取信息,但是遇到“返回”时失败了吗?

来自分类Dev

用于从网页中提取 HTML 标签组的正则表达式

来自分类Dev

如何使用 REGEXEXTRACT 正则表达式从 Google 电子表格中提取数据

来自分类Dev

正则表达式从js代码中提取地址

来自分类Dev

从正则表达式中提取数据

来自分类Dev

正则表达式-从网址中提取数字

来自分类Dev

从正则表达式中提取值:c#

来自分类Dev

正则表达式从行中提取IP地址

来自分类Dev

JMeter:从数组响应中提取正则表达式

来自分类Dev

在通用Lisp中提取正则表达式匹配

来自分类Dev

从正则表达式中提取文本?

来自分类Dev

正则表达式如何从括号中提取单词

来自分类Dev

正则表达式从插入查询中提取值

来自分类Dev

在正则表达式PHP中提取链接

来自分类Dev

正则表达式//从<a>链接中提取值

来自分类Dev

Javascript正则表达式在括号中提取

来自分类Dev

正则表达式从文件中提取哈希

来自分类Dev

正则表达式从方括号中提取?

来自分类Dev

在php中提取正则表达式

来自分类Dev

正则表达式从URL中提取类别

来自分类Dev

在PySpark中提取几个正则表达式匹配

Related 相关文章

  1. 1

    使用正则表达式从网页中提取表格

  2. 2

    在R中使用正则表达式从网页中提取文本和数字

  3. 3

    如何在R中使用正则表达式从URL中提取Google表格ID?

  4. 4

    使用正则表达式从文本中提取帮助

  5. 5

    使用正则表达式从网址中提取日期

  6. 6

    使用正则表达式从地址中提取数字

  7. 7

    使用正则表达式从列表中提取位置

  8. 8

    我使用正则表达式从python中的网页中提取信息,但是遇到“返回”时失败了吗?

  9. 9

    我使用正则表达式从python中的网页中提取信息,但是遇到“返回”时失败了吗?

  10. 10

    用于从网页中提取 HTML 标签组的正则表达式

  11. 11

    如何使用 REGEXEXTRACT 正则表达式从 Google 电子表格中提取数据

  12. 12

    正则表达式从js代码中提取地址

  13. 13

    从正则表达式中提取数据

  14. 14

    正则表达式-从网址中提取数字

  15. 15

    从正则表达式中提取值:c#

  16. 16

    正则表达式从行中提取IP地址

  17. 17

    JMeter:从数组响应中提取正则表达式

  18. 18

    在通用Lisp中提取正则表达式匹配

  19. 19

    从正则表达式中提取文本?

  20. 20

    正则表达式如何从括号中提取单词

  21. 21

    正则表达式从插入查询中提取值

  22. 22

    在正则表达式PHP中提取链接

  23. 23

    正则表达式//从<a>链接中提取值

  24. 24

    Javascript正则表达式在括号中提取

  25. 25

    正则表达式从文件中提取哈希

  26. 26

    正则表达式从方括号中提取?

  27. 27

    在php中提取正则表达式

  28. 28

    正则表达式从URL中提取类别

  29. 29

    在PySpark中提取几个正则表达式匹配

热门标签

归档