如何下载Beautifulsoup中没有链接的excel文件?

Fangyuan

我想从网站下载一个excel文件。但是,在我检查 HTML 代码后没有该文件的链接。

我在网页中单击“Excel 输出”按钮后下载的文件已损坏,因为它只是将 HTML 表格保存为 excel 文件。

这是该 excel 输出按钮的 HTML 代码

                <th colspan="4">

                    <a onmouseover="this.style.cursor='pointer';" onmouseout="this.style.cursor='default';" onclick="alert('To open the Excel document, please Save/Save As first');window.open(window.location+'&excel=Y');">

                <font color="blue">Excel Output</font></a></th>

这种情况下可以用Beautifulsoup下载文件吗?如果是,那么如何?

保罗·斯卡丁

由于您没有提供原始站点 URL,因此这只是一个疯狂的猜测,但请查看“onclick”属性中的此 JS 片段:

window.open(window.location+'&excel=Y');

它附加&excel=Y到当前 URL 并打开一个新窗口。所以我有根据的猜测是,您必须下载的 URL 与&excel=Y添加到末尾的HTML 相同

假设您从https://example.com/report/?year=2018:获取此 HTML,只需直接转到即可https://example.com/report/?year=2018&excel=Y

这应该会让你得到你的电子表格,但前提是它真的是一个 MS Excel 文件 - 有一个输出 HTML 文件名以 XLS 结尾的老技巧,MS Excel 会很高兴地打开它,因为它是一个真正的 MS Excel 电子表格。

谢谢!我认为你的回答正好描述了我的情况。我确定这不是一个真正的 MS Excel 文件,它只是一个以 XLS 结尾的 HTML。我还可以将其下载为 excel 文件吗?– 方圆

不要介意测试它是否有效并自己弄清楚:我会为你做这件事。让我使用像 Notepad++ 这样的简单编辑器创建一个文件。我将添加以下 HTML 表格:

<table>
    <tr>
        <td></td>
        <td>A</td>
        <td>B</td>
        <td>C</td>
    </tr>
    <tr>
        <td>1</td>
        <td></td>
        <td></td>
        <td></td>
    </tr>
    <tr>
        <td>2</td>
        <td></td>
        <td></td>
        <td></td>
    </tr>
</table>

现在我将它保存为foo.xls,在 Windows 资源管理器中找到它并双击。瞧!这将打开 MS Excel,并显示以下警告:

在此处输入图片说明

当我点击“是”时,它会打开:

在此处输入图片说明

所以是的,下载文件并以.xls. 如果它是一个真正的 Excel 文件,它将打开 OK,如果它是一个 HTML 表格,它将显示警告,但如果您单击“是”,它也会打开 OK。

好的,如果它是一个 HTML 表格并且您不想要警告怎么办?您可以使用 BeautifulSoup 解析它,并使用类似pandas的包xlwt来创建一个真正的 Excel 文件。我不会在这个答案中介绍转换,这一步值得提出自己的问题。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何下载链接中的所有文件

来自分类Dev

如何下载PDF中的所有链接

来自分类Dev

如何下载没有完整URL的文件?

来自分类Dev

如何使用Python从Excel导出中的超链接下载文件

来自分类Dev

如何下载网址中没有文件名和文件扩展名的文件

来自分类Dev

Webcrawler BeautifulSoup-如何从没有类标签的链接中获取标题

来自分类Dev

下载通过R中的url链接的多个excel文件

来自分类Dev

如何下载所有链接到文本的文件?

来自分类Dev

如何使用wget下载网站上链接的所有文件

来自分类Dev

更新Excel文件中的所有链接

来自分类Dev

如何下载与帖子链接的文件?

来自分类Dev

如何从Sharepoint中的同一链接下载多个文件

来自分类Dev

确定页面中的所有下载链接,然后下载所有文件

来自分类Dev

从网站下载文件(包括没有直接链接的文件)的工具?

来自分类Dev

带有 Dropbox 链接的“wget -N”始终下载(即使文件没有更改)

来自分类Dev

有没有办法可以从链接下载文件的特定部分?

来自分类Dev

如何在Python中下载没有MemoryError的大文件?

来自分类Dev

如何下载没有特定内容类型的文件

来自分类Dev

如何在Python中下载没有MemoryError的大文件?

来自分类Dev

wget没有遵循flashplayer下载链接

来自分类Dev

没有安装程序的MySql下载链接?

来自分类Dev

没有安装程序的MySql下载链接?

来自分类Dev

如何通过单击链接在 Angular Front End Web App 的浏览器中下载或保存 .csv 文件?浏览器投诉没有文件

来自分类Dev

没有项目,如何在CodeBlocks中链接2个文件?

来自分类Dev

从Wikipedia页面下载所有链接的文件

来自分类Dev

如何在 Laravel 中通过 Ajax 下载 Excel 文件?

来自分类Dev

有没有办法从Julia的Google云端硬盘下载Excel文件(包含多张纸)?

来自分类Dev

SourceTree没有下载所有文件?

来自分类Dev

在目标文件中带有“ U”未定义符号类型的程序如何编译而没有任何链接器错误?

Related 相关文章

  1. 1

    如何下载链接中的所有文件

  2. 2

    如何下载PDF中的所有链接

  3. 3

    如何下载没有完整URL的文件?

  4. 4

    如何使用Python从Excel导出中的超链接下载文件

  5. 5

    如何下载网址中没有文件名和文件扩展名的文件

  6. 6

    Webcrawler BeautifulSoup-如何从没有类标签的链接中获取标题

  7. 7

    下载通过R中的url链接的多个excel文件

  8. 8

    如何下载所有链接到文本的文件?

  9. 9

    如何使用wget下载网站上链接的所有文件

  10. 10

    更新Excel文件中的所有链接

  11. 11

    如何下载与帖子链接的文件?

  12. 12

    如何从Sharepoint中的同一链接下载多个文件

  13. 13

    确定页面中的所有下载链接,然后下载所有文件

  14. 14

    从网站下载文件(包括没有直接链接的文件)的工具?

  15. 15

    带有 Dropbox 链接的“wget -N”始终下载(即使文件没有更改)

  16. 16

    有没有办法可以从链接下载文件的特定部分?

  17. 17

    如何在Python中下载没有MemoryError的大文件?

  18. 18

    如何下载没有特定内容类型的文件

  19. 19

    如何在Python中下载没有MemoryError的大文件?

  20. 20

    wget没有遵循flashplayer下载链接

  21. 21

    没有安装程序的MySql下载链接?

  22. 22

    没有安装程序的MySql下载链接?

  23. 23

    如何通过单击链接在 Angular Front End Web App 的浏览器中下载或保存 .csv 文件?浏览器投诉没有文件

  24. 24

    没有项目,如何在CodeBlocks中链接2个文件?

  25. 25

    从Wikipedia页面下载所有链接的文件

  26. 26

    如何在 Laravel 中通过 Ajax 下载 Excel 文件?

  27. 27

    有没有办法从Julia的Google云端硬盘下载Excel文件(包含多张纸)?

  28. 28

    SourceTree没有下载所有文件?

  29. 29

    在目标文件中带有“ U”未定义符号类型的程序如何编译而没有任何链接器错误?

热门标签

归档