Scrapyを使用して階層データをスクレイピングする

debugcn 投稿 Dev

ポールサントス

私がスクレイプしようとしているWebサイトには、次のページがあります。

すべての本のリスト
すべての章を含む本の情報ページ
チャプターをクリックすると、最初のページが表示され、そのチャプターのすべてのページのドロップダウンが利用可能になります

ここまでは順調ですね。必要なすべてのデータを取得することはできますが、唯一の問題は、ページをその章に、または章をその本に参照することです。私はこのように本の情報をメタに渡すことについて読みました：

scrapy.Request(url=url, callback=self.parse_chapter, meta={book: book})

しかし、アイテムパイプラインでそれらを参照する方法がわかりません。何か助けはありますか？

ポールサントス

クロール中にアイテムを参照する方法はないと思います。それらを1つのテーブルに保存し、スクレイピング後にレコードを分離します。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-08-6

コメントを追加

サインイン

分類Dev

Scrapyを使用してテーブルからデータをスクレイピングする

分類Dev

Scrapyを使用してスクレイピングされたデータからDataFrameを構築する

分類Dev

Rvestを使用してデータをスクレイピングする方法

分類Dev

Nokogiriを使用してデータをスクレイピングする：「undefinedmethod `text '」

分類Dev

Scrapyを使用してスクレイピングデータを複数の形式でエクスポートする

分類Dev

2つのPandasデータフレーム（ピボットされている）を列の階層インデックスとマージする方法

分類Dev

Scrapy：ページ付けリンクをたどってデータをスクレイピングします

分類Dev

Java7-クラス階層を介してデータをストリーミングする

分類Dev

Seleniumがscrapy-seleniumモジュールを使用して複数のJavaScriptページからデータをスクレイピングする

分類Dev

Scrapyでadmin-ajax.phpを使用してWebサイトからデータをスクレイピングする方法

分類Dev

<li>タグを使用してWebサイトからhtmlデータをスクレイピングする

分類Dev

Scrapyを使用してJSON内のHTMLをスクレイピングする

分類Dev

セレンを使用してテーブルからデータをスクレイピングする

分類Dev

Scrapy：複数のデータをスクレイピングする

分類Dev

beautifulSoupを使用して<td>タグからデータを個別にスクレイピングする方法は？

分類Dev

Numpyを使用して階層化することで、データをトレーニング、テスト、検証に分割します

分類Dev

セレンを使用してHighchartsからデータをスクレイピングする

分類Dev

python + beautifulSoup4を使用して動的グラフからデータをスクレイピングする

分類Dev

python + beautifulSoup4を使用して動的グラフからデータをスクレイピングする

分類Dev

BeautifulSoupを使用してデータをデータフレームにスクレイピングします

分類Dev

seaborn clustermapを使用して、階層的クラスタリングでクラスターの行を抽出します

分類Dev

Pythonを使用して.ASPXWebサイトのURLからデータをスクレイピングする

分類Dev

BeautifulSoupを使用してWebサイトからデータをスクレイピングする際の問題

分類Dev

lxmlを使用してデータをスクレイピングする際のxpathの使用

分類Dev

「ネストされた」iframeからvbaを使用してデータをスクレイピングする

分類Dev

imdb top 250データをスクレイピングし、Pythonを使用してPowerPointで複製する

分類Dev

「もっと見る」を使用してデータをスクレイピングする

分類Dev

beautifulsoupを使用してスクリプトタグからデータをスクレイピングします

分類Dev

Rのrvestを使用してhtmlWebページから特定のデータをスクレイピングする

Related 関連記事

記事