我正在尝试镜像具有页面的网站:
http://www.site.com/news
和内容:
http://www.site.com/news/36-news/news-one
http://www.site.com/news/37-news/news-two
http://www.site.com/news/38-news/another-news-here
这就是我正在使用的
wget -m -Dsite.com -e robots=off -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG \
-t 10 http://www.site.com &
运行wget时,它将创建一个名为的HTML文件news
。
我无法下载内容,因为具有该名称的文件news
已经存在(我正在运行Ubuntu:目录不能与文件具有相同的名称)
以下是在wget
不运行的情况下出现的消息-q
www.site.com/news/36-news:不是目录
www.site.com/news/36-news/news-one:不是目录
你可以试试看--no-clobber
。但是,在我看来,您似乎更适合使用功能更全的东西,例如httrack。这是命令行选项的手册:http : //www.httrack.com/html/fcguide.html
您可以像这样为所有目录添加前缀:
httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t"
因此,与您的命令类似的完整命令可能类似于:
httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t" --retries=10 --ext-depth=0 --robots=0 +*.gif +*.png +*.jpg +*.jpeg +*.GIF +*.PNG +*.JPG +*.JPEG
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句