ScrapyフレームワークでRobotsTxtMiddlewareを操作する方法は?

マックス

ScrapyフレームワークにはRobotsTxtMiddlewareがあります。Scrapyがrobots.txtを尊重していることを確認する必要があります。設定ROBOTSTXT_OBEY = Trueで設定する必要があります。そうすれば、Scrapyはrobots.txtポリシーを尊重します。私はそれをしてスパイダーを実行しました。デバッグでは、http://site_url/robot.txtへのリクエストを見ました

  1. これはどういう意味ですか、どのように機能しますか?
  2. どうすれば応答を処理できますか?
  3. robot.txtからルールを確認して理解するにはどうすればよいですか?
amirouche

robot.txtルールがある場所にスパイダーが要求するのは正常です

robot.txt 基本的には、アクセス/クロールしてはならないURLのブラックリストであり、glob / regexのような構文を使用して禁止されているURLを指定します。

Scapyはを読み取り、robot.txtそれらのルールをコードに変換します。クロール中にスパイダーがURLに遭遇すると、スパイダーは最初にrobot.txt、URLにアクセスできることから生成されたルールに対して検証します。URLがrobot.txtscrapyによってブラックリストに登録されていない場合は、URLにアクセスしてを配信しResponseます。

robot.txtURLをブラックリストに登録するだけでなく、クロールが発生する速度も提供します。ここに例がありますrobot.txt

User-Agent: * 
Disallow: /x?
Disallow: /vote?
Disallow: /reply?
Disallow: /submitted?
Disallow: /submitlink?
Disallow: /threads?
Crawl-delay: 30

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

SwiftフレームワークでCocoapodsを使用する方法は?

分類Dev

フレームワーク内でAlamofireを使用する方法は?

分類Dev

DjangoRESTフレームワークで「削除」操作のテストを作成する方法

分類Dev

Slick2フレームワークで列を操作する方法

分類Dev

DjangoレストフレームワークでImageFiledを処理する方法は?

分類Dev

EclipseでAndroidフレームワークリソースを参照する方法は?

分類Dev

yiiフレームワークでメッセージを表示する方法は?

分類Dev

JavaでCucumberフレームワークでTestNGを使用する方法は?

分類Dev

PhoenixフレームワークでSASS / SCSSを使用する方法は?

分類Dev

YiiフレームワークでURLを適用する方法は?

分類Dev

iOSでCocoatouchフレームワークを構築する方法は?

分類Dev

フレームワークなしでTypescriptを使用する方法は?

分類Dev

vhostでzendフレームワーク2を構成する方法は?

分類Dev

djangoフレームワークでdjango-registeringを使用する方法は?

分類Dev

Playフレームワークでebeanとmysqlを使用する方法は?

分類Dev

ロボットフレームワークでjqueryを実行する方法は?

分類Dev

Xcode 7にフレームワークを追加する方法は?

分類Dev

Microsoft Botフレームワークフォームフローで日付を検証する方法は?

分類Dev

SpringフレームワークでList <Integer>を@Autowiredする方法

分類Dev

LaravelフレームワークでMongoDBを使用する方法

分類Dev

フレームワークでXCGLoggerを使用する方法

分類Dev

Playで@selectを処理する方法!フレームワーク

分類Dev

djangoRESTフレームワークでJSONを解析する方法

分類Dev

phalconフレームワークでrecaptchagoogleを使用する方法

分類Dev

YII フレームワークで Jquery Ajax を使用する方法

分類Dev

エンティティフレームワークで複数のデータベースを操作する方法は?

分類Dev

Go IrisフレームワークでHTMLフォームを解析する方法は?

分類Dev

yiiフレームワーク:検索フォームで検索結果を空にする方法は?

分類Dev

フェニックスフレームワークでjsonをレンダリングする方法は?

Related 関連記事

  1. 1

    SwiftフレームワークでCocoapodsを使用する方法は?

  2. 2

    フレームワーク内でAlamofireを使用する方法は?

  3. 3

    DjangoRESTフレームワークで「削除」操作のテストを作成する方法

  4. 4

    Slick2フレームワークで列を操作する方法

  5. 5

    DjangoレストフレームワークでImageFiledを処理する方法は?

  6. 6

    EclipseでAndroidフレームワークリソースを参照する方法は?

  7. 7

    yiiフレームワークでメッセージを表示する方法は?

  8. 8

    JavaでCucumberフレームワークでTestNGを使用する方法は?

  9. 9

    PhoenixフレームワークでSASS / SCSSを使用する方法は?

  10. 10

    YiiフレームワークでURLを適用する方法は?

  11. 11

    iOSでCocoatouchフレームワークを構築する方法は?

  12. 12

    フレームワークなしでTypescriptを使用する方法は?

  13. 13

    vhostでzendフレームワーク2を構成する方法は?

  14. 14

    djangoフレームワークでdjango-registeringを使用する方法は?

  15. 15

    Playフレームワークでebeanとmysqlを使用する方法は?

  16. 16

    ロボットフレームワークでjqueryを実行する方法は?

  17. 17

    Xcode 7にフレームワークを追加する方法は?

  18. 18

    Microsoft Botフレームワークフォームフローで日付を検証する方法は?

  19. 19

    SpringフレームワークでList <Integer>を@Autowiredする方法

  20. 20

    LaravelフレームワークでMongoDBを使用する方法

  21. 21

    フレームワークでXCGLoggerを使用する方法

  22. 22

    Playで@selectを処理する方法!フレームワーク

  23. 23

    djangoRESTフレームワークでJSONを解析する方法

  24. 24

    phalconフレームワークでrecaptchagoogleを使用する方法

  25. 25

    YII フレームワークで Jquery Ajax を使用する方法

  26. 26

    エンティティフレームワークで複数のデータベースを操作する方法は?

  27. 27

    Go IrisフレームワークでHTMLフォームを解析する方法は?

  28. 28

    yiiフレームワーク:検索フォームで検索結果を空にする方法は?

  29. 29

    フェニックスフレームワークでjsonをレンダリングする方法は?

ホットタグ

アーカイブ