フィッチレーティングスのサイトをRでウェブスクレイプすることはできません

フェリペリベイロ

私はフィッチレーティングスのウェブサイトをこすり取ろうとしていますが、今まで私が望むもの、つまりレーティングのリストを取得することができません。Rスクレイプすると、ウェブサイトのヘッダーが返され、本文でgoogleTagManagerから「iframe」が取得され、重要なコンテンツが「非表示」になります。

ウェブサイト:https//www.fitchratings.com/site/search?content = research&filter = RESEARCH%20LANGUAGE%5EPortuguese%2BGEOGRAPHY%5EAmericas%2BREPORT%20TYPE%5EHeadlines%5ERating%20Action%20Commentary

戻り値:

[1] <head>\n<title>Search - Fitch Ratings</title>\n<!-- headerScripts --><!-- --><meta http-equiv="Content-Type" content="text/html; chars ...
[2] <body id="search-results">\n        <div id="privacy-policy-tos-modal-container"></div>\n        <!-- Google Tag Manager (noscript) -- ...
_____________

私が欲しいもの:

Date;Research;Type;Text

04 Sep 2019; Fitch afirma Rating de Qualidade(...);Rating Action Commentary;Fitch Ratings-Sao Paulo - 04 September 2019: A Fitch Ratings Afirmou hoje, o Rating de Qualidade de Gestão de Ivnestimento 'Excelente' (...)
02 Sep 2019; Fitch Eleva Rating (...); Rating Action Commentary; Fitch Ratings - Sao Paulo - 02 September 2019: A Fitch Ratings elevou hoje (...)

以下のコード

html_of_site <- read_html(url("https://www.fitchratings.com/site/search?content=research&filter=RESEARCH%20LANGUAGE%5EPortuguese%2BGEOGRAPHY%5EAmericas%2BREPORT%20TYPE%5EHeadlines%5ERating%20Action%20Commentary"))

html_of_site
フェンダル

短い答え:このウェブサイトをこすらないでください。

長い答え:技術的にはこのサイトを削ることは可能ですが、人間のよう振る舞うコードが必要です。これが意味することは、あなたが実際に人間の訪問者であり、ボットではないことをフィッチグループのサーバーに納得させる必要があるということです。

これを行うには、次のことを行う必要があります。

  • ブラウザがサイトに送信するのと同じヘッダーを送信します
  • サイトがあなたに送り返すCookieを追跡し、必要に応じて後続のリクエストでそれらを返します
  • サーバーから返送されたスクリプトを評価します(実際に必要なデータをロードするため)。

thefitchgroup.comのサイトポリシーにアクセスできませんでしたが、ボットとは何か、サイトでの実行が許可されていないことに関する条項が含まれていると思います。この会社はあなたがスクレイピングしようとしているデータを販売している可能性が高いので、おそらくこのサイトをスクレイピングすることは避けるべきです。

一般に、最初にサイトポリシーを読まずに、サイトをスクレイプしないでください。スクレイピングしているデータがスクレイピングせずに無料でない場合は、おそらくスクレイピングすべきではありません。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

美しいスープでウェブサイトをこする。ただし、各<li>タグをスクレイプすることはできません

分類Dev

Android:プログラマティックテキストビューで小さなフォントサイズを作成することはできません

分類Dev

テンプレートとディレクティブの間で角度バインディングを機能させることができません

分類Dev

TTKのノートブックは、他のフレームでカスタマイズされたフレーム内のウィジェットを表示することはできません

分類Dev

ウェブサイトからそれに応じて2つのフィールドをフェッチすることはできません

分類Dev

オンプレミスのデータゲートウェイトラフィックをサイト間VPN経由でルーティングする方法

分類Dev

Kotlinプロパティをサブインターフェイスでオーバーライドすることはできません

分類Dev

インターフェイスのプロパティにバッキングフィールドを含めることはできません

分類Dev

Facebookのオープングラフは私のウェブサイトのメタタグをスクレイピングできませんか?

分類Dev

大きな.txtファイルをディープテキストコレクターのトレーニング、テスト、検証の部分に分割することはできません

分類Dev

Webサイトからの公開リクエストに応じてアイテムをレンダリングすることを許可できますが、ブラウザーで直接表示することはできませんか?

分類Dev

反応ネイティブルーターフラックスサンプルプロジェクトを最新バージョンの依存関係で動作させることはできません

分類Dev

Android-プレフィックス「xmlns」を名前空間に明示的にバインドすることはできません。「xmlns」の名前空間をプレフィックスに明示的にバインドすることもできません

分類Dev

Springを使用しているときに、チェックスタイルメッセージ「ユーティリティクラスにデフォルトのパブリックコンストラクターを含めることはできません」を抑制する方法

分類Dev

ImportError:libcublas.so.9.0:共有オブジェクトファイルを開くことができません:Ubuntu 16.04.03にテンソルフローをインストールするときに、そのようなファイルまたはディレクトリはありません

分類Dev

キングストン16GBUSBスティックを「ライブブータブルUSB」として使用することはできません

分類Dev

メディアクエリはウェブサイトをレスポンシブにします。しかし、それは私がブラウザをドラッグしているときだけではありません

分類Dev

ネイティブは、スタックトレースを実行することはできません反応します

分類Dev

Visual Studio Team Servicesエラー:「指定されたコマンドレットのターゲットをWindowsクライアントベースのオペレーティングシステムにすることはできません。」

分類Dev

vhdlのforループでインデックスにアクセスすることは可能ですか?エラー:インデックス付きの名前プレフィックスタイプnatrualは配列タイプではありません

分類Dev

PythonWebDriver-send_keysを使用してファイルをサイトにアップロードすることはできません。APIはファイル選択ウィンドウをアクティブにします

分類Dev

MySQLをインストールできません-libaio.so.1:共有オブジェクトファイルを開くことができません:そのようなファイルまたはディレクトリはありません-永続性のあるライブインストール

分類Dev

Docker-イメージをビルドしようとしているときに、「このプラットフォームではイメージオペレーティングシステム「linux」を使用できません」

分類Dev

JavaFX Mavenアセンブリの警告:「プロジェクトアーティファクトを含めることはできません...関連付けられたファイルまたはディレクトリがありません」

分類Dev

JavaFX Mavenアセンブリの警告:「プロジェクトアーティファクトを含めることはできません...関連付けられたファイルまたはディレクトリがありません」

分類Dev

レーティングバーにフルスターのみを表示することはできません

分類Dev

readLines()ウェブスクレイピングはrで接続を開くことができません

分類Dev

ウェブスクレイピングは、すべてのテーブルを取得できません

分類Dev

php mysqlプロジェクトを無料のウェブホスティングサイトにアップロードするときにdbconnファイルのエラーを修正するにはどうすればよいですか?

Related 関連記事

  1. 1

    美しいスープでウェブサイトをこする。ただし、各<li>タグをスクレイプすることはできません

  2. 2

    Android:プログラマティックテキストビューで小さなフォントサイズを作成することはできません

  3. 3

    テンプレートとディレクティブの間で角度バインディングを機能させることができません

  4. 4

    TTKのノートブックは、他のフレームでカスタマイズされたフレーム内のウィジェットを表示することはできません

  5. 5

    ウェブサイトからそれに応じて2つのフィールドをフェッチすることはできません

  6. 6

    オンプレミスのデータゲートウェイトラフィックをサイト間VPN経由でルーティングする方法

  7. 7

    Kotlinプロパティをサブインターフェイスでオーバーライドすることはできません

  8. 8

    インターフェイスのプロパティにバッキングフィールドを含めることはできません

  9. 9

    Facebookのオープングラフは私のウェブサイトのメタタグをスクレイピングできませんか?

  10. 10

    大きな.txtファイルをディープテキストコレクターのトレーニング、テスト、検証の部分に分割することはできません

  11. 11

    Webサイトからの公開リクエストに応じてアイテムをレンダリングすることを許可できますが、ブラウザーで直接表示することはできませんか?

  12. 12

    反応ネイティブルーターフラックスサンプルプロジェクトを最新バージョンの依存関係で動作させることはできません

  13. 13

    Android-プレフィックス「xmlns」を名前空間に明示的にバインドすることはできません。「xmlns」の名前空間をプレフィックスに明示的にバインドすることもできません

  14. 14

    Springを使用しているときに、チェックスタイルメッセージ「ユーティリティクラスにデフォルトのパブリックコンストラクターを含めることはできません」を抑制する方法

  15. 15

    ImportError:libcublas.so.9.0:共有オブジェクトファイルを開くことができません:Ubuntu 16.04.03にテンソルフローをインストールするときに、そのようなファイルまたはディレクトリはありません

  16. 16

    キングストン16GBUSBスティックを「ライブブータブルUSB」として使用することはできません

  17. 17

    メディアクエリはウェブサイトをレスポンシブにします。しかし、それは私がブラウザをドラッグしているときだけではありません

  18. 18

    ネイティブは、スタックトレースを実行することはできません反応します

  19. 19

    Visual Studio Team Servicesエラー:「指定されたコマンドレットのターゲットをWindowsクライアントベースのオペレーティングシステムにすることはできません。」

  20. 20

    vhdlのforループでインデックスにアクセスすることは可能ですか?エラー:インデックス付きの名前プレフィックスタイプnatrualは配列タイプではありません

  21. 21

    PythonWebDriver-send_keysを使用してファイルをサイトにアップロードすることはできません。APIはファイル選択ウィンドウをアクティブにします

  22. 22

    MySQLをインストールできません-libaio.so.1:共有オブジェクトファイルを開くことができません:そのようなファイルまたはディレクトリはありません-永続性のあるライブインストール

  23. 23

    Docker-イメージをビルドしようとしているときに、「このプラットフォームではイメージオペレーティングシステム「linux」を使用できません」

  24. 24

    JavaFX Mavenアセンブリの警告:「プロジェクトアーティファクトを含めることはできません...関連付けられたファイルまたはディレクトリがありません」

  25. 25

    JavaFX Mavenアセンブリの警告:「プロジェクトアーティファクトを含めることはできません...関連付けられたファイルまたはディレクトリがありません」

  26. 26

    レーティングバーにフルスターのみを表示することはできません

  27. 27

    readLines()ウェブスクレイピングはrで接続を開くことができません

  28. 28

    ウェブスクレイピングは、すべてのテーブルを取得できません

  29. 29

    php mysqlプロジェクトを無料のウェブホスティングサイトにアップロードするときにdbconnファイルのエラーを修正するにはどうすればよいですか?

ホットタグ

アーカイブ