HTML文件中的Python正则表达式匹配

安德鲁·史蒂夫(Andrew Stef)

我正在尝试在html文件中进行匹配。这是html:

<td>
<b>BBcode</b><br />
<textarea onclick='this.select();' style='width:300px;     height:200px;' />
[URL=http://someimage.com/LwraZS1]          [IMG]http://t1.someimage.com/LwraZS1.jpg[/IMG][    [/URL] [URL=http://someimage.com/CDnuiST]   [IMG]http://t1.someimage.com/CDnuiST.jpg[/IMG]   [/URL] [URL=http://someimage.com/Y0oZKPb][IMG]http://t1.someimage.com/Y0oZKPb.jpg[/IMG][/URL] [URL=http://someimage.com/W2RMAOR][IMG]http://t1.someimage.com/W2RMAOR.jpg[/IMG][/URL] [URL=http://someimage.com/5e5AYUz][IMG]http://t1.someimage.com/5e5AYUz.jpg[/IMG][/URL] [URL=http://someimage.com/EWDQErN][IMG]http://t1.someimage.com/EWDQErN.jpg[/IMG][/URL]
</textarea>
</td>

我想从[到]中提取所有BB代码。

这是我的代码:

import re
x = open('/xxx/xxx/file.html', 'r').read
y = re.compile(r"""<td> <b>BBcode</b><br /><textarea onclick='this.select();' style='width:300px; height:200px;' />. (. *) </textarea> </td>""") 
z  = y.search(str(x())
print z          

但是,当我运行它时,我得到None对象……错误在哪里?

詹姆斯·多普(James Doepp)-休息

我将为此使用解析器:

from html import HTMLParser

class MyHtmlParser(HTMLParser):
    def __init__(self):
        self.reset()
        self.convert_charrefs = True
        self.dat = []
    def handle_data(self, d):
        self.dat.append(d.strip())
    def return_data(self):
        return self.dat
>>> with open('sample.html') as htmltext:
        htmldata = htmltext.read()
>>> parser = MyHtmlParser()
>>> parser.feed(htmldata)
>>> res = parser.return_data()
>>> res = [item for item in filter(None, res)]
>>> res[0]
'BBcode'
>>> 

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

正则表达式在python中匹配并替换

来自分类Dev

在Python正则表达式中匹配\ [\]

来自分类Dev

在python中匹配正则表达式

来自分类Dev

Python中的正则表达式-多行匹配

来自分类Dev

python正则表达式删除匹配的括号文件

来自分类Dev

正则表达式用于Python中的匹配括号

来自分类Dev

在Python中搜索/匹配正则表达式

来自分类Dev

Python中的正则表达式无法正确匹配

来自分类Dev

使用正则表达式匹配Python中的单词

来自分类Dev

python中的复杂正则表达式匹配

来自分类Dev

python中的正则表达式与单词不匹配

来自分类Dev

Python中的正则表达式匹配问题

来自分类Dev

python中的正则表达式以匹配Twitter句柄

来自分类Dev

正则表达式的正则表达式在Python中不匹配

来自分类Dev

正则表达式模式无法在python中匹配

来自分类Dev

正则表达式以匹配CSS文件中的ID?

来自分类Dev

在Python正则表达式中匹配\ [\]

来自分类Dev

Python正则表达式匹配以解析html

来自分类Dev

正则表达式以匹配HTML代码中的模式

来自分类Dev

Python正则表达式匹配顺序html标签

来自分类Dev

在python中匹配正则表达式

来自分类Dev

python中的正则表达式匹配

来自分类Dev

python正则表达式删除匹配的括号文件

来自分类Dev

如何使用正则表达式匹配webapp2中的静态html文件?

来自分类Dev

Python中的正则表达式无法正确匹配

来自分类Dev

PHP Preg与html文件匹配。正则表达式

来自分类Dev

匹配网址正则表达式中的文件路径

来自分类Dev

使用正则表达式匹配HTML中的url

来自分类Dev

正则表达式匹配 html 注释,在 javascript 中