ScrapyフレームワークでRobotsTxtMiddlewareを操作する方法は？

debugcn 投稿 Dev

マックス

ScrapyフレームワークにはRobotsTxtMiddlewareがあります。Scrapyがrobots.txtを尊重していることを確認する必要があります。設定ROBOTSTXT_OBEY = Trueで設定する必要があります。そうすれば、Scrapyはrobots.txtポリシーを尊重します。私はそれをしてスパイダーを実行しました。デバッグでは、http：//site_url/robot.txtへのリクエストを見ました。

これはどういう意味ですか、どのように機能しますか？
どうすれば応答を処理できますか？
robot.txtからルールを確認して理解するにはどうすればよいですか？

amirouche

robot.txtルールがある場所にスパイダーが要求するのは正常です。

robot.txt 基本的には、アクセス/クロールしてはならないURLのブラックリストであり、glob / regexのような構文を使用して禁止されているURLを指定します。

Scapyはを読み取り、robot.txtそれらのルールをコードに変換します。クロール中にスパイダーがURLに遭遇すると、スパイダーは最初にrobot.txt、URLにアクセスできることから生成されたルールに対して検証します。URLがrobot.txtscrapyによってブラックリストに登録されていない場合は、URLにアクセスしてを配信しResponseます。

robot.txtURLをブラックリストに登録するだけでなく、クロールが発生する速度も提供します。ここに例がありますrobot.txt：

User-Agent: * 
Disallow: /x?
Disallow: /vote?
Disallow: /reply?
Disallow: /submitted?
Disallow: /submitlink?
Disallow: /threads?
Crawl-delay: 30

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-05-28

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

ScrapyフレームワークでRobotsTxtMiddlewareを操作する方法は？

ScrapyフレームワークでRobotsTxtMiddlewareを操作する方法は？

SwiftフレームワークでCocoapodsを使用する方法は？

フレームワーク内でAlamofireを使用する方法は？

DjangoRESTフレームワークで「削除」操作のテストを作成する方法

Slick2フレームワークで列を操作する方法

DjangoレストフレームワークでImageFiledを処理する方法は？

EclipseでAndroidフレームワークリソースを参照する方法は？

yiiフレームワークでメッセージを表示する方法は？

JavaでCucumberフレームワークでTestNGを使用する方法は？

PhoenixフレームワークでSASS / SCSSを使用する方法は？

YiiフレームワークでURLを適用する方法は？

iOSでCocoatouchフレームワークを構築する方法は？

フレームワークなしでTypescriptを使用する方法は？

vhostでzendフレームワーク2を構成する方法は？

djangoフレームワークでdjango-registeringを使用する方法は？

Playフレームワークでebeanとmysqlを使用する方法は？

ロボットフレームワークでjqueryを実行する方法は？

Xcode 7にフレームワークを追加する方法は？

Microsoft Botフレームワークフォームフローで日付を検証する方法は？

SpringフレームワークでList <Integer>を@Autowiredする方法

LaravelフレームワークでMongoDBを使用する方法

フレームワークでXCGLoggerを使用する方法

Playで@selectを処理する方法！フレームワーク

djangoRESTフレームワークでJSONを解析する方法

phalconフレームワークでrecaptchagoogleを使用する方法

YII フレームワークで Jquery Ajax を使用する方法

エンティティフレームワークで複数のデータベースを操作する方法は？

Go IrisフレームワークでHTMLフォームを解析する方法は？

yiiフレームワーク：検索フォームで検索結果を空にする方法は？

フェニックスフレームワークでjsonをレンダリングする方法は？