如何获取wget下载的文件的文件名

纳伦德拉乔杜里

os.system('wget '+ link)用来从网站检索文件。下载后,我想根据源链接进一步处理这些文件。

大多数链接都是这种形式htttp://example.com/.../filename.zip
在这种情况下,只需将文件下载为即可filename.zip我既可以使用basenameRegExp也可以从链接中提取内容[^/]+$

但是问题是形式的链接

http://http://www.ez-robot.com
http://www.worldscientific.com/
http://www.fairweld.com

这些链接下载为index.htmlindex.html.1index.html.2ANS等。
在这里,我无法区分哪个index文件属于哪个网站。我这样做的一种方法是查看链接传递到的顺序wget

我想要一些通用方法来获取“真实”文件名,通过该文件名可以在计算机中下载文件。wget执行完毕,它显示终端上的Saving to:标签,其次是“真实”的文件名。我想将该文件名存储在字符串中。

是否有任何直接/简便的方法来获取文件名?我正在使用Python。

$ wget http://www.fairweld.com
--2015-04-11 18:51:48--  http://www.fairweld.com/
Connecting to 202.142.81.24:3124... connected.
Proxy request sent, awaiting response... 200 OK
Length: 39979 (39K) [text/html]
Saving to: ‘index.html.4
帕德拉克·坎宁安

使用os.path.basename并根据URL的结尾获取名称,您还可以使用请求下载html:

links = ["http://www.ez-robot.com",
"http://www.worldscientific.com/",
"http://www.fairweld.com"]


import urlparse
import requests
import os
for link in links:
    r = requests.get(link)
    if link.rsrip("/").endswith(".com"):
        name = os.path.basename(link)
    else:
        name = urlparse.urlsplit(link.path.split("/")[-1])
    with open("{}.html".format(name),"w") as f:
        f.write(r.content)

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

重定向后如何通过wget获取下载的文件名

来自分类Dev

wget批量下载设置文件名

来自分类Dev

我将如何`wget`文件,然后按下载日期而不是文件名保存它们?

来自分类Dev

下载前获取文件名

来自分类Dev

下载前获取文件名

来自分类Dev

如何通过wget后文件获取发送到php:// input的文件名

来自分类Dev

如何通过wget后文件获取发送到php:// input的文件名

来自分类Dev

如何设置下载链接的文件名?

来自分类Dev

如何设置下载链接的文件名?

来自分类Dev

如何更改要下载的文件名

来自分类Dev

如何下载长文件名的种子?

来自分类Dev

使用Java下载文件时如何获取原始文件名

来自分类Dev

下载文件之前如何从链接中获取文件名?

来自分类Dev

使用 wget 下载与文件名中的扩展名和特定文本匹配的文件

来自分类Dev

下载文件时如何设置文件名?

来自分类Dev

如何下载文件名已更改的文件?

来自分类Dev

Ubuntu 13.10 Server:wget自动更改下载文件的文件名

来自分类Dev

下载多个文件,并使用wget指定输出文件名

来自分类Dev

Ubuntu 13.10 Server:wget自动更改下载文件的文件名

来自分类Dev

wget将下载的文件保存为短链接的名称,而不是实际的文件名

来自分类Dev

使用WebClient下载时获取原始文件名

来自分类Dev

下载并使用htmlunit获取原始文件名?

来自分类Dev

如何使wget用正确的文件名保存

来自分类Dev

如何使wget用正确的文件名保存

来自分类Dev

PHP Laravel如何获取原始pdf文件名并使其可下载

来自分类Dev

如何从Firebase存储(Javascript,React)的下载链接中获取文件名?

来自分类Dev

如何从Javascript FileReader获取文件名?

来自分类Dev

如何获取上传的文件名?

来自分类Dev

@MultipartForm如何获取原始文件名?

Related 相关文章

  1. 1

    重定向后如何通过wget获取下载的文件名

  2. 2

    wget批量下载设置文件名

  3. 3

    我将如何`wget`文件,然后按下载日期而不是文件名保存它们?

  4. 4

    下载前获取文件名

  5. 5

    下载前获取文件名

  6. 6

    如何通过wget后文件获取发送到php:// input的文件名

  7. 7

    如何通过wget后文件获取发送到php:// input的文件名

  8. 8

    如何设置下载链接的文件名?

  9. 9

    如何设置下载链接的文件名?

  10. 10

    如何更改要下载的文件名

  11. 11

    如何下载长文件名的种子?

  12. 12

    使用Java下载文件时如何获取原始文件名

  13. 13

    下载文件之前如何从链接中获取文件名?

  14. 14

    使用 wget 下载与文件名中的扩展名和特定文本匹配的文件

  15. 15

    下载文件时如何设置文件名?

  16. 16

    如何下载文件名已更改的文件?

  17. 17

    Ubuntu 13.10 Server:wget自动更改下载文件的文件名

  18. 18

    下载多个文件,并使用wget指定输出文件名

  19. 19

    Ubuntu 13.10 Server:wget自动更改下载文件的文件名

  20. 20

    wget将下载的文件保存为短链接的名称,而不是实际的文件名

  21. 21

    使用WebClient下载时获取原始文件名

  22. 22

    下载并使用htmlunit获取原始文件名?

  23. 23

    如何使wget用正确的文件名保存

  24. 24

    如何使wget用正确的文件名保存

  25. 25

    PHP Laravel如何获取原始pdf文件名并使其可下载

  26. 26

    如何从Firebase存储(Javascript,React)的下载链接中获取文件名?

  27. 27

    如何从Javascript FileReader获取文件名?

  28. 28

    如何获取上传的文件名?

  29. 29

    @MultipartForm如何获取原始文件名?

热门标签

归档