考虑其中有3个表的html页面。
我想遍历每个表,并同时打印一些内容(如果内容与我想要的内容相对应)。
我需要跟踪我所在的桌子。
如您在下面的代码中看到的,我有page
一个html字符串变量。
我可以一次(在数组中)返回所有表中的内容。
我想遍历他们。
import __future__
from lxml import html
import requests
from bs4 import BeautifulSoup
page = """
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>cv</title>
</head>
<body>
<table>
<tr>
<td>table1 td1</td>
<td>table1 td2</td>
</tr>
</table>
<table>
<tr>
<td>table2 td1</td>
<td>table2 td2</td>
</tr>
</table>
<table>
<tr>
<td>table3 td1</td>
<td>table3 td2</td>
</tr>
</table>
</body>
</html>
"""
soup = str(BeautifulSoup(page, 'html.parser'))
tree = html.fromstring(soup)
tds = tree.xpath('//table/tr/td/text()')
for td in tds:
print(td + '\n')
print('Ready !!')
您是说需要单独处理每个表?
for table in tree.xpath(".//table"):
print("--- new table: ---")
for td in table.xpath(".//td"):
print(td)
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句