我需要在命令行中抓取一个网页(单个页面,而不是所有站点),并获取其所有资产(图像/ css)。
我真的很喜欢google chrome如何做到这一点-如果保存网页,我将获得包含所有资产的单个html文件和单个目录。此外,所有图像路径都更改为本地路径,并且所有链接都是绝对链接(如果为“ / pricing”,则变为“ http://example.com/pricing ”)。
我知道我可以使用wget
,但我不喜欢结果-许多目录(如果有来自不同域的图像),并且html文件在目录中的某个位置(具有域名)。
我真的很喜欢用谷歌浏览器保存页面后的结果,我需要知道您是否知道一些命令行爬虫,它们会产生相似的结果。
还是您知道如何配置wget
才能像我需要的那样做?
谢谢大家的建议!
我需要的是--no-directories
参数wget
。然后,我得到一个包含所有需要的文件的目录(html文件,图像,css文件)。
抱歉,这个问题的措辞不好。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句