Scrapyを使用してdivセレクターからテキストを抽出する

debugcn 投稿 Dev

user11322408

私はスクレイプシェルの陶器の納屋で価格のテキストを取得しようとしています。scrapy shell "https://www.potterybarnkids.com/shop/easter/easter-shop-all-baskets/"スパン内の価格を取得しようとして使用しましたが、class="price-state price-sale"スパン内の各スパンに移動して、スパン内のテキスト全体を抽出する方法はありますか？

私は試した

response.xpath('//span[@class="price-state price-sale"]/text()').extract() また response.xpath('//span[@class="price-state price-sale"]//text()')[0].extract()

内部スパン、div、...があるセレクター天気内のすべてのテキストを抽出する方法が必要です。

私がチェックし、私はpythonでscrapyセレクタにテキストのみを抽出することができますどのようにも、ScrapyはDIVからテキストを抽出する答えは、それがその一例であり、このいずれかで動作する唯一のスパン子供が含まれていることを前提とし、この1に。しかし、//text()が機能していないため、子内のすべてのテキストを正しく抽出するためのより一般的な方法はありますか。

マルコス

もっと効率的な方法があると思いますが、次の方法でxpathうまくいきます。string()XPathの上には、すべての子ノードからテキストを収集します。

この投稿の違いについての詳細はstring()、text()この投稿を参照してください。text（）とstring（）の違い

prices = [
    r.xpath('string(.)').extract_first() 
    for r in response.xpath('//span[@class="price-state price-sale"]')
]

結果からわかるように、行ごとに1つの製品。replaceたとえば、でクリーニングしたり、を使用して価格を抽出したりできます。regex

>>> prices
['\n\nSale\n\n\n$5.99\n–\n\n$18.99\n', '\n\nSale\n\n\n$6...

他のオプションは、操作の前にデータをtext()代わりに使用してstring()データをクリーニングするという2つのステップでそれを行うことですjoin。

>>> prices = []
>>> for r in response.xpath('//span[@class="price-state price-sale"]'):
>>>     price = [p.strip() for p in r.xpath('.//text()').extract() if p.strip()]
>>>     prices.append(' '.join(price))

この場合の結果はすでにクリーンアップされています

>>> prices
['Sale $ 5.99 – $ 18.99', 'Sale $ 6.99 – $ 18.99', 'Sale $ 6.99...

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-10

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

Scrapyを使用してdivセレクターからテキストを抽出する

Scrapyを使用してdivセレクターからテキストを抽出する

Scrapyを使用してテーブルからテキストを抽出する

BeautifulSoupを使用してdivからテキストを抽出する

Pythonを使用してHTMLからプレーンテキストを抽出する

スクレイプまたはセレンを使用してdivクラスからh1テキストを抽出します

Scrapyを使用してスクリプトタグからデータを抽出する

Scrapyを使用してスクリプトタグからデータを抽出する

div内のテキストとその中のハイパーリンクをscrapyを使用して抽出するにはどうすればよいですか？

セレンを使用してテキストを抽出する

Pythonでセレンを使用して<li>アイテムからテキストを抽出する

Jsoupを使用してDIV間からテキストを抽出する方法は？

CSSセレクターを使用して次の要素でスパンテキストを抽出します

grepを使用してテキストファイルからデータを抽出し、別のディレクトリに保存する

Python / BeautifulSoupを使用して複数のDIVS + DIVスタイルからテキストを抽出する

データセットからテキストを抽出する

PythonでSeleniumを使用してdivクラスからテキストを抽出する方法

cssセレクターを使用してスクレイプクロールでスパン外のテキストを抽出する

jqueryを使用して一括テキストからすべてのメールアドレスを抽出する

セレンテストで使用するURLからデータを抽出する

Scrapyとxpathを使用してテキストを抽出する

CSSセレクターを使用してdiv内のテキスト（タグなし）を選択するにはどうすればよいですか？

セレンWebドライバーを使用してネストされたdivタグからテキストを取得する

CSSセレクターを使用してhrefテキストを取得する方法

TIKAを使用してURLからテキストを抽出する

Pythonを使用してHTMLからテキストを抽出する

Ghostscriptを使用してPDFからテキストを抽出する

セレンとJavaを使用してスペース区切りでWebページから取得した抽出されたテキストを印刷する方法

Zapierは、複数のセパレーターを使用してテキスト行から国コードを抽出します

BeautifulSoupを使用してXMLの複数のリストからテキストデータを抽出する

Rを使用してtspanクラスタグHTMLからテキスト/数値を抽出する