HTMLノードを生成するJavaScriptファイルを返すajaxページのスクレイピング

debugcn 投稿 Dev

yayu

一部のページは、ajaxで生データ（json、xml、htmlなど）を返しません。代わりに、ajax呼び出しが何らかの形でhtmlノードにデータを取り込むjsファイルを返すdojoのようなフレームワークを使用します。

これらのページからデータをスクレイプするための非Selenium戦略があるかどうか疑問に思っています。

alecxe

seleniumまたはwebkitベースのアプローチの代わりに、のようなjavascriptコードパーサーを使用してjavascriptを解析できますslimit。むき出しのハードコアメタルに取り掛かるので、ウェブスクレイピングの複雑さと信頼性が確実に高まります。seleniumベースの高レベルの「ブラックボックス」アプローチではなく、「ホワイトボックス」アプローチと考えてください。

これがあなたが尋ねているのとまったく同じトピック/問題に対して私が与えた答えです：

スクレイピーでxpath属性にアクセスできない

これには、slimitJavaScriptコードからオブジェクトを取得し、jsonモジュールを介してPythonデータ構造にロードし、BeautifulSoupパーサーを使用して内部のHTMLを解析するための使用が含まれます。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-29

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

HTMLノードを生成するJavaScriptファイルを返すajaxページのスクレイピング

HTMLノードを生成するJavaScriptファイルを返すajaxページのスクレイピング

複雑なノード構造（htmlノード）でページをスクレイピングするrvestメール

スクレイピングのキーワードでHTMLファイルを分離する

HTMLページをJavascriptでExcelにスクレイピングする

ajaxを使用するWebページのスクレイピング

Facebookのファンページの数値IDをすばやく大量にスクレイピングする

ウェブページのグリッド内でJavaScriptデータをスクレイピングする

JavaScriptでレンダリングされたHTMLページをPythonでスクレイピングする

空のjsonファイルを返すスクレイピー

特定の行以降のHTMLファイルのデータをスクレイピングする方法

バックエンドのjsonデータファイルを使用するPythonWebスクレイピング

ドライスクレイプで react.js の Web ページをスクレイピングする

Scrapyで複数のページをスクレイピングする1つの辞書を返す

HTMLページからPythonピクルスファイルを提供する方法

ページをスクレイピングしてもすべてのHTMLが返されない

Pythonを使用して、複数の動的選択フィールドを持つページからデータをスクレイピングする方法は？

ホスティング（ファイルマネージャー）ディレクトリのindex.htmlからページをリンクする

スクレイピングされたイメージの場所をDBに保存する-ノード/平均

PHPでページをスクレイピングする

javascriptでページ内のすべてのリンクをスクレイピングする方法

javascript効果でページをスクレイピングする方法

すべてのページをスクレイピング

すべてのページをスクレイピング

空のフィールドをスクレイピングする

ノード内の値のためにhtmlノードをスクレイピングしますか？

Rでソースhtmlではなく実際のページをスクレイピングする画面

HTMLページのJavascriptからデータをスクレイピング

BeautifulSoupを使用して複数のテーブルを含むページをスクレイピングする

nodejsとpuppeteerを使用してウィキペディアのページからフィルモグラフィーをスクレイピングする

画像のsrcのWebページをスクレイピングする方法は？