使用熊猫读取下载的HTML文件

乐心

作为标题,我尝试使用read_html但给了我以下错误:

In [17]:temp = pd.read_html('C:/age0.html',flavor='lxml')
  File "<string>", line unknown
XMLSyntaxError: htmlParseStartTag: misplaced <html> tag, line 65, column 6

我做错了什么?

更新01

HTML在顶部包含一些javascript,然后是html表。我使用R通过XML包解析html给我一个数据帧来处理它。我想用python来做,在将它提供给熊猫之前,我还应该使用beautifulsoup这样的东西吗?

ZJS

我认为您可以通过使用html解析器(如漂亮的汤)来朝正确的方向前进。pandas.read_html()读取html表而不是html页面。

您可能想做这样的事情...

from bs4 import BeautifulSoup
import pandas as pd

table = BeautifulSoup(open('C:/age0.html','r').read()).find('table')
df = pd.read_html(table) #I think it accepts BeatifulSoup object
                         #otherwise try str(table) as input

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用PowerShell读取下载文件的文件名

来自分类Dev

如何从iOS中的路径读取下载文件

来自分类Dev

以 HTML 格式获取下载文件的版本信息

来自分类Dev

使用熊猫读取无界文件

来自分类Dev

使用熊猫读取.data文件

来自分类Dev

使用熊猫从URL文件下载/加载xls

来自分类Dev

如何获取下载的文件类型?

来自分类Dev

使用熊猫从zip读取特定的csv文件

来自分类Dev

使用熊猫读取文件中的数组值

来自分类Dev

使用python熊猫读取.reg文件

来自分类Dev

从 html 读取下一行

来自分类Dev

NSURLSessionDownloadTask-在didFinishDownloading之前读取下载的数据

来自分类Dev

我正在使用 Pandas 来读取下面附加的 excel 图像文件

来自分类Dev

使用熊猫从URL下载/加载压缩的csv文件

来自分类Dev

AlamoFire:如何快速获取下载图像的文件大小?

来自分类Dev

在vb.net中获取下载文件的大小

来自分类Dev

如何使用html按钮下载dmg文件?

来自分类Dev

使用R下载和读取压缩的xml文件

来自分类Dev

使用PHP或Python从FTP服务器读取或下载文件的5kb,而不是下载或读取整个文件

来自分类Dev

使用熊猫将csv文件作为字典读取

来自分类Dev

熊猫:使用UCS-2 LE编码读取csv文件

来自分类Dev

如何使用熊猫读取文本文件的键,值对?

来自分类Dev

如何使用熊猫从Excel文件中读取特定行

来自分类Dev

使用熊猫读取Python中的csv文件块

来自分类Dev

使用熊猫从URL中读取excel文件-XLRDError

来自分类Dev

使用熊猫读取文件时的日期时间标头

来自分类Dev

在Python中使用熊猫读取文件时忽略空DataFrame

来自分类Dev

如何在Python中使用熊猫跳过读取空文件

来自分类Dev

无法使用熊猫从特定的.CSV文件中读取内容

Related 相关文章

热门标签

归档