データを取得していないリンクをたどるScrapy

debugcn 投稿 Dev

Jar6

単純なスクレイプスパイダーを使用して、リンクのリストと各リンクからのスクラップデータを追跡しようとしていますが、問題が発生しています。

スクレイプシェルでは、スクリプトを再作成すると、新しいURLのgetリクエストが送信されますが、クロールを実行すると、リンクからデータが返されません。私が返す唯一のデータは、リンクに移動する前にスクレイプされた開始URLからのものです。

リンクからデータを取得するにはどうすればよいですか？

 import scrapy

    class QuotesSpider(scrapy.Spider):
        name = "players"
        start_urls = ['http://wiki.teamliquid.net/counterstrike/Portal:Teams']

        def parse(self, response):
            teams = response.xpath('//*[@id="mw-content-text"]/table[1]')
            for team in teams.css('span.team-template-text'):
                yield{
                    'teamName': team.css('a::text').extract_first()
                }


            urls = teams.css('span.team-template-text a::attr(href)')
            for url in urls:
                url = response.urljoin(url)
                yield scrapy.Request(url, callback=self.parse_team_info)


        def parse_team_info(self, response):
                yield{
                    'Test': response.css('span::text').extract_first()
                }

jrocc

使用する代わりに

url = response.urljoin(url)
yield scrapy.Request(url, callback=self.parse_team_info)

使用する

yield response.follow(url, callback=self.parse_team_info)

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-08-6

コメントを追加

サインイン

分類Dev

リンクのリストをたどって、Scrapyのページからデータを取得するにはどうすればよいですか？

分類Dev

Scrapy: 機能しないページ付けリンクをたどる

分類Dev

リンクをたどるScrapy、新しいリンクを抽出してフォローする

分類Dev

Scrapyでクリックしてデータを取得する方法

分類Dev

ボタンをクリックしてもデータベースからデータが取得されない

分類Dev

プリンタデータ（トナー、印刷ページなど）をオンラインで取得したい

分類Dev

セレンでこする、クリックして隠しテーブルに必要なデータをロードするボタンを取得できない

分類Dev

PHPとMySQL：ユーザーがクリックしたリンクに基づいてデータベースからデータを取得する

分類Dev

div内のどこをクリックしても、データセット値を取得したい

分類Dev

Scrapy：ページ付けリンクをたどってデータをスクレイピングします

分類Dev

Firebase データベースにクエリを実行しているが、データまたはエラーが取得されない

分類Dev

extract_first（）を使用してScrapyがクリーンなテキストを取得しない

分類Dev

Scrapyはすべてのリンクをたどり、ステータスを取得します

分類Dev

Recyclerviewでクリックされたアダプターの位置を使用してデータを取得するにはどうすればよいですか？

分類Dev

別のコレクションから取得したリストに基づいてデータを取得するためのMongodb集計クエリ

分類Dev

Scrapyを使用してCSSセレクターからデータを取得するにはどうすればよいですか？

分類Dev

MDXクエリを使用してデータを取得するのに正しいのはどれですか？

分類Dev

Pythonでパンダデータフレームを使用して他の特別なインデックスを参照する新しい最大リストを取得するにはどうすればよいですか？

分類Dev

Pythonでパンダデータフレームを使用して他の特別なインデックスを参照する新しい最大リストを取得するにはどうすればよいですか？

分類Dev

ansibleを使用してマウントされているディレクトリまたはマウントされていないディレクトリの情報を取得するにはどうすればよいですか？

分類Dev

データベースに存在しない変数に応じてデータを取得するためのクエリ？

分類Dev

Scrapyにリンクをたどらせ、データを収集させる

分類Dev

所有していないキャンバスからピクセルデータを取得するにはどうすればよいですか？

分類Dev

phpクエリを編集して正しいjsonデータを取得する

分類Dev

リクエストまたは他のモジュールを使用して、URLが変更されていないページからデータを取得するにはどうすればよいですか？

分類Dev

モーダル内のボタンをクリックしてjQueryまたはjavascriptを使用してブートストラップモーダルのデータ値を取得するにはどうすればよいですか？

分類Dev

コードを実行しているコンピューターのルートWindowsディレクトリをどのように取得しますか？（Python）

分類Dev

リンクを特定してたどり、BeautifulSoupを使用して新しいWebページからデータを印刷する方法

分類Dev

アプリケーションを初めて実行するかどうかに基づいて、適切なデータを取得します

Related 関連記事

記事