我试图通过在项目配置文件中添加额外的一行来覆盖我的crawlspider的用户代理。这是代码:
[settings]
default = myproject.settings
USER_AGENT = "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.93 Safari/537.36"
[deploy]
#url = http://localhost:6800/
project = myproject
但是,当我在自己的Web上运行搜寻器时,我注意到Spider不会选择我自定义的用户代理,而是默认的“ Scrapy / 0.18.2(+ http://scrapy.org)”。谁能解释我做错了什么。
注意:
scrapy crawl myproject.com -o output.csv -t csv -s USER_AGENT="Mozilla...."
(2)。当我从配置文件中删除“ default = myproject.setting”行,并运行scrapy crawl myproject.com时,它说“找不到蜘蛛..”,因此我觉得这种情况下不应删除默认设置。
非常感谢您的事先帮助。
将您的USER_AGENT行移至settings.py
文件,而不是scrapy.cfg
文件中。settings.py
应该与items.py
使用scrapy startproject
命令处于同一级别,在这种情况下,它应该类似于myproject/settings.py
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句