我正在尝试使用下载该已发表的期刊文章cURL
。它是开放访问的主页,因此任何人都可以看到/下载本文。然后提取pdfurl
,它会不断变化。
然后,我尝试下载pdf:
curl -L -o test.pdf "http://www.sciencedirect.com/science/article/pii/S0378426612000817/pdfft?md5=6a85f34def09dd5cfb1d1b8feded0d51&pid=1-s2.0-S0378426612000817-main.pdf"
但一直以来,它将我重定向到主页,然后将其下载为名为“ test.pdf”的html页面。
curl
似乎在wget
默认情况下处理重定向的方式有所不同。直接下载URL将涉及一些重定向,并且还要求在第一次重定向后正确设置HTTP Referer标头(否则,您将获得HTML页面)。
首先,您需要启用位置重定向curl
用-L
,然后启用curl
的引荐头与自动处理--referer ";auto"
,也就是说,
curl -L --referer ";auto" -o test.pdf URL-for-direct-download
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句