将网站完全以XML格式转换为pandas数据框

托比亚斯·冯克

我正在尝试将以下网站转换为数据框,以便可以处理数据:https : //www.ifsqn.com/forum/index.php/rss/forums/4-food-safety-quality-discussion/

在网上看到的所有地方,我只会看到如何将XML FILES转换为数据框。我尝试了以下操作,但由于它不是XML文件,因此无法使用。我自己可以做熊猫部分,但是首先,需要掌握一些数据。

import requests
import xml.etree.ElementTree as ET

headers = {'User-Agent': 'Mozilla/5.0'}

r = requests.get("https://www.ifsqn.com/forum/index.php/rss/forums/4-food-safety-quality-discussion/",headers=headers)

c = r.content

root = ET.parse(r).getroot()

print(root)

我在这里缺少将XML转换为可读格式以将数据转换为Pandas数据框的哪些步骤?

任何输入,不胜感激!

阿隆梅

您要解析的XML是RSS,并且由于它具有特定的格式,因此您可以使用用于解析RSS feed的python库(例如feedparser

import feedparser
import pandas as pd

parsed_rss = feedparser.parse('https://www.ifsqn.com/forum/index.php/rss/forums/4-food-safety-quality-discussion/')

pd.DataFrame(parsed_rss['entries'])
                                                title                                       title_detail  ...                                                 id guidislink
0                      Monitored vs Verifying Records  {'type': 'text/plain', 'language': None, 'base...  ...  https://www.ifsqn.com/forum/index.php/topic/38...      False
1   Is it necessary to follow the new ISO 22000 to...  {'type': 'text/plain', 'language': None, 'base...  ...  https://www.ifsqn.com/forum/index.php/topic/38...      False
2                      usda inspector tagging product  {'type': 'text/plain', 'language': None, 'base...  ...  https://www.ifsqn.com/forum/index.php/topic/38...      False
3                              Chocolate Liquor Discs  {'type': 'text/plain', 'language': None, 'base...  ...  https://www.ifsqn.com/forum/index.php/topic/38...      False
4                              Multi-Pack Beef Sticks  {'type': 'text/plain', 'language': None, 'base...  ...  https://www.ifsqn.com/forum/index.php/topic/38...      False
..                                                ...                                                ...  ...                                                ...        ...
95  HACCP Pan for super critical fluid extraction ...  {'type': 'text/plain', 'language': None, 'base...  ...  https://www.ifsqn.com/forum/index.php/topic/38...      False
96               Illegal Drugs Pictured on Food Label  {'type': 'text/plain', 'language': None, 'base...  ...  https://www.ifsqn.com/forum/index.php/topic/38...      False
97    BRC metal can packaging compliance requirements  {'type': 'text/plain', 'language': None, 'base...  ...  https://www.ifsqn.com/forum/index.php/topic/38...      False
98  Codex Decision tree in ISO 22000:2018 - Clause...  {'type': 'text/plain', 'language': None, 'base...  ...  https://www.ifsqn.com/forum/index.php/topic/38...      False
99           BRC clause 4.3.4 - Battery Charging area  {'type': 'text/plain', 'language': None, 'base...  ...  https://www.ifsqn.com/forum/index.php/topic/38...      False

[100 rows x 10 columns]

另一种方法是自己将XML解析为可用于构造DataFrame的某种结构,此处为示例

编辑:

现在,我看到您通过了,r而不是c在以下行中:

root = ET.parse(r).getroot()

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

将XML转换为pandas数据框

来自分类Dev

如何将XML文件转换为Pandas数据框

来自分类Dev

将xml数据转换为数据框

来自分类Dev

将数据框转换为XML

来自分类Dev

将xml转换为数据框

来自分类Dev

将数据框转换为XML

来自分类Dev

将pandas数据框转换为列表

来自分类Dev

将ndarray转换为pandas数据框

来自分类Dev

将json转换为pandas数据框

来自分类Dev

将(可能是格式错误的)xml转换为R中的数据框

来自分类Dev

将json格式数据转换为数据框

来自分类Dev

TypeError将Pandas数据框转换为Spark数据框

来自分类Dev

将Pandas数据框转换为Spark数据框错误

来自分类Dev

在python中将pandas数据框转换为特定的Json格式

来自分类Dev

以这种格式将数据框转换为JSON

来自分类Dev

如何将字典转换为这种格式的数据框?

来自分类Dev

将Python数据框列转换为日期格式

来自分类Dev

如何将数据框转换为日期时间格式

来自分类Dev

将数据框转换为所需的字典格式

来自分类Dev

R:将XML数据转换为数据框

来自分类Dev

将字典的特定字典转换为Pandas数据框-Pandas

来自分类Dev

将Pandas数据框内的列表转换为新数据框

来自分类Dev

如何使用Pandas将面板数据转换为正确的格式

来自分类Dev

将xml转换为具有重复列的数据框

来自分类Dev

将尾注 XML 转换为 R 数据框

来自分类Dev

将格式化为csv文件的单个字符串转换为pandas数据框

来自分类Dev

将pandas数据框中的列从String转换为Float

来自分类Dev

直接将Pandas数据框转换为稀疏Numpy矩阵

来自分类Dev

如何将numpy数组转换为pandas数据框?