一部のページは、ajaxで生データ(json、xml、htmlなど)を返しません。代わりに、ajax呼び出しが何らかの形でhtmlノードにデータを取り込むjsファイルを返すdojoのようなフレームワークを使用します。
これらのページからデータをスクレイプするための非Selenium戦略があるかどうか疑問に思っています。
selenium
またはwebkit
ベースのアプローチの代わりに、のようなjavascriptコードパーサーを使用してjavascriptを解析できますslimit
。むき出しのハードコアメタルに取り掛かるので、ウェブスクレイピングの複雑さと信頼性が確実に高まります。selenium
ベースの高レベルの「ブラックボックス」アプローチではなく、「ホワイトボックス」アプローチと考えてください。
これがあなたが尋ねているのとまったく同じトピック/問題に対して私が与えた答えです:
これには、slimit
JavaScriptコードからオブジェクトを取得し、json
モジュールを介してPythonデータ構造にロードし、BeautifulSoup
パーサーを使用して内部のHTMLを解析するための使用が含まれます。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加