検索

検索

Scrapy: 正しいセレクターを取得する方法

debugcn 投稿 Dev

2

GRS

次のテキストを選択したいと思います。

太字通常斜体

選択して取得する必要があります: 太字の通常のイタリスト。

html は次のとおりです。

<a href=""><strong>Bold</strong> normal <i>Italist</i></a>

ただし、a/text()収量

正常

のみ。誰かが修正を知っていますか？ビングクロールをテストしていますが、クエリによって太字のテキストの位置が異なります。

フランク・マーティン

a//text()代わりに使用a/text()して、すべてのテキストアイテムを取得できます。

# -*- coding: utf-8 -*-
from scrapy.selector import Selector

doc = """
<a href=""><strong>Bold</strong> normal <i>Italist</i></a>
"""

sel = Selector(text=doc, type="html")

result = sel.xpath('//a/text()').extract()
print result
# >>> [u' normal ']

result = u''.join(sel.xpath('//a//text()').extract())
print result
# >>> Bold normal Italist

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-08-2

0

コメントを追加

0

サインイン

関連記事

分類Dev

ScrapyでCSSセレクターを使用してhrefを取得する

分類Dev

Scrapyはデータを抽出していません、cssセレクターは正しいです

分類Dev

Scrapyでクリックしてデータを取得する方法

分類Dev

Xpath。セレクターでタグ名を取得するにはどうすればよいですか。Scrapy

分類Dev

正しいsession_idを取得する方法は？（Scrapy、Python）

分類Dev

Scrapyを使用してCSSセレクターからデータを取得するにはどうすればよいですか？

分類Dev

Scrapy CSS セレクター

分類Dev

Scrapyセレクターから生のhtmlを抽出する方法は？

分類Dev

xpath、scrapyを使用して「THIS」セレクター内でループする

分類Dev

Scrapyはセレクターでcss疑似要素を使用します

分類Dev

Scrapy :: CSSセレクターで「not」を使用して要素をスキップする方法

分類Dev

ScrapyでCSSおよびXpathセレクターを使用する

分類Dev

Scrapy CSS セレクターはタグを無視してテキストのみを取得します

分類Dev

Scrapyを使用してJSONデータをスクレイプする方法

分類Dev

Scrapy：Lowes Webサイトの正しいセレクターを見つける（スクリーンショットを含む）

分類Dev

Scrapy CSSセレクター：すべての内部タグのテキストを取得する

分類Dev

Scrapy CSSセレクター：すべての内部タグのテキストを取得する

分類Dev

データを取得していないリンクをたどるScrapy

分類Dev

Scrapy、CSSセレクターを使用してタグ間のミスサインデータを処理するにはどうすればよいですか？

分類Dev

Scrapyセレクターを使用して一貫性のないマークアップを処理するにはどうすればよいですか？

分類Dev

Cssセレクターまたはxpathを使用してscrapyでデータを抽出する

分類Dev

Scrapy re（）セレクターを使用するにはどうすればよいですか？

分類Dev

Scrapyで各クローラーの深さを取得する方法

分類Dev

Scrapyで新しいリンクをスクレイプする方法

分類Dev

Scrapyを使用してdivセレクターからテキストを抽出する

分類Dev

Scrapyを使用して曲をスクレイプする方法

分類Dev

ScrapyフレームワークでRobotsTxtMiddlewareを操作する方法は？

分類Dev

Scrapyを使用して階層データをスクレイピングする

分類Dev

Scrapy投稿データ

Related 関連記事

記事

ホットタグ

アーカイブ