我对与xml,python和抓取数据进行交互还很陌生,所以请多多包涵:我有一个xml文件,其中的笔记保存在evernote中。我已经能够将BeautifulSoup和lxml加载到我的python环境中。我还能够加载xml文件并打印
这是我的代码,直到打印为止:
from bs4 import BeautifulSoup
from xml.dom.minidom import parseString
file = open('myNotes.xml','r')
data = file.read()
dom = parseString(data)
print data.toxml()
我没有包含实际的打印文件,因为它包含许多基本的64位代码。
我要完成的工作是提取选定的xml标记并将它们打印到新文件中……帮助!
这是使用BeautifulSoup打印xml的方法
from bs4 import BeautifulSoup
soup = BeautifulSoup(open('myNotes.xml','r'))
print(soup.prettify())
并将其写入文件:
with open("file.txt", "w") as f:
f.write(soup.prettify())
现在,要将所有特定类型的标签提取到列表中:
# Extract all of the <a> tags:
tags = soup.find_all('a')
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句