私はフィッチレーティングスのウェブサイトをこすり取ろうとしていますが、今まで私が望むもの、つまりレーティングのリストを取得することができません。Rでスクレイプすると、ウェブサイトのヘッダーが返され、本文でgoogleTagManagerから「iframe」が取得され、重要なコンテンツが「非表示」になります。
ウェブサイト:https://www.fitchratings.com/site/search?content = research&filter = RESEARCH%20LANGUAGE%5EPortuguese%2BGEOGRAPHY%5EAmericas%2BREPORT%20TYPE%5EHeadlines%5ERating%20Action%20Commentary
戻り値:
[1] <head>\n<title>Search - Fitch Ratings</title>\n<!-- headerScripts --><!-- --><meta http-equiv="Content-Type" content="text/html; chars ...
[2] <body id="search-results">\n <div id="privacy-policy-tos-modal-container"></div>\n <!-- Google Tag Manager (noscript) -- ...
_____________
私が欲しいもの:
Date;Research;Type;Text
04 Sep 2019; Fitch afirma Rating de Qualidade(...);Rating Action Commentary;Fitch Ratings-Sao Paulo - 04 September 2019: A Fitch Ratings Afirmou hoje, o Rating de Qualidade de Gestão de Ivnestimento 'Excelente' (...)
02 Sep 2019; Fitch Eleva Rating (...); Rating Action Commentary; Fitch Ratings - Sao Paulo - 02 September 2019: A Fitch Ratings elevou hoje (...)
以下のコード
html_of_site <- read_html(url("https://www.fitchratings.com/site/search?content=research&filter=RESEARCH%20LANGUAGE%5EPortuguese%2BGEOGRAPHY%5EAmericas%2BREPORT%20TYPE%5EHeadlines%5ERating%20Action%20Commentary"))
html_of_site
短い答え:このウェブサイトをこすらないでください。
長い答え:技術的にはこのサイトを削ることは可能ですが、人間のように振る舞うコードが必要です。これが意味することは、あなたが実際に人間の訪問者であり、ボットではないことをフィッチグループのサーバーに納得させる必要があるということです。
これを行うには、次のことを行う必要があります。
thefitchgroup.comのサイトポリシーにアクセスできませんでしたが、ボットとは何か、サイトでの実行が許可されていないことに関する条項が含まれていると思います。この会社はあなたがスクレイピングしようとしているデータを販売している可能性が高いので、おそらくこのサイトをスクレイピングすることは避けるべきです。
一般に、最初にサイトポリシーを読まずに、サイトをスクレイプしないでください。スクレイピングしているデータがスクレイピングせずに無料でない場合は、おそらくスクレイピングすべきではありません。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加