ScrapyフレームワークにはRobotsTxtMiddlewareがあります。Scrapyがrobots.txtを尊重していることを確認する必要があります。設定ROBOTSTXT_OBEY = True
で設定する必要があります。そうすれば、Scrapyはrobots.txtポリシーを尊重します。私はそれをしてスパイダーを実行しました。デバッグでは、http://site_url/robot.txtへのリクエストを見ました。
robot.txt
ルールがある場所にスパイダーが要求するのは正常です。
robot.txt
基本的には、アクセス/クロールしてはならないURLのブラックリストであり、glob / regexのような構文を使用して禁止されているURLを指定します。
Scapyはを読み取り、robot.txt
それらのルールをコードに変換します。クロール中にスパイダーがURLに遭遇すると、スパイダーは最初にrobot.txt
、URLにアクセスできることから生成されたルールに対して検証します。URLがrobot.txt
scrapyによってブラックリストに登録されていない場合は、URLにアクセスしてを配信しResponse
ます。
robot.txt
URLをブラックリストに登録するだけでなく、クロールが発生する速度も提供します。ここに例がありますrobot.txt
:
User-Agent: *
Disallow: /x?
Disallow: /vote?
Disallow: /reply?
Disallow: /submitted?
Disallow: /submitlink?
Disallow: /threads?
Crawl-delay: 30
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加