Scrapy / Xpathにダブルを記録させることはできません

debugcn 投稿 Dev

デブリアン

私はscrapyを使用していくつかの詩をクロールしようとしていますが、次のテキストがあります。

Lorem ipsum dolor sit amet,<br>  
consectetuer adipiscing elit.<br> 
<br> 
Aenean commodo ligula eget dolor.<br> 
Aenean massa

そして、私はそれが次のようにスクレイプなxpathであることを選択します：

In [1]: sel.xpath('//div[@class="box"]/text()').extract()
Out[1]:
[u'Lorem ipsum dolor sit amet,',
 u'consectetuer adipiscing elit.',
 u'Aenean commodo ligula eget dolor.',
 u'Aenean massa',]

余分なbrを無視しないようにするにはどうすればよいですか？

イェンスは

XPathクエリは、 Scrapyが` `タグを返さないように強制します

Scrapyは、 タグを無視するように指示したため、タグを無視します。XPathクエリ

//div[@class="box"]/text()

のすべてのダイレクトテキストノードの子を//div[@class="box"]選択し、それらのみを選択します。これらの タグの中で、他のノードタイプは単に無視されます。

検索を` `タグに拡張する

あなたもしたい場合は 、トークンが返され、テキストノードとの両方を選択し たトークンを：

(//div[@class="box"]/text() | //div[@class="box"]/br)

ここで、すべての結果をループします。テキストノードに出くわした場合は、その内容を 返します。（）タグは改行を返します。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-27

コメントを追加

サインイン

分類Dev

ScrapyとPythonを使用するXPathは、XPathを正しく機能させることができません

分類Dev

Scrapyはリストを見ることができません

分類Dev

Scrapy ValueError：URLをなしにすることはできません

分類Dev

BRを解決できません

分類Dev

Xpath nodeValue / textContentが タグを認識できません

分類Dev

jQueryは\ nを に置き換えましたHTMLは をレンダリングしません

分類Dev

Scrapy-コメントをスクレイピングすると、 の後のテキストがスキップされます

分類Dev

生成され、InspectElementにのみ表示されます

分類Dev

HTML 5： 、 、または ですか？

分類Dev

MySQL.connectorをPythonのScrapyで動作させることができません

分類Dev

Scrapyは私のディレクトリにファイルを書き込まないので、それを見ることができません

分類Dev

Scrapyスパイダーはクリック時に読み込まれるURLを見つけることができません

分類Dev

JSOUP「 」を選択

分類Dev

と を\ nに置き換える方法は？

分類Dev

Scrapy spiderは必要なテキストをログに記録しますが（Scrapyシェルでも機能します）、JSONファイルには書き込みません。

分類Dev

を含む文字列はngForで改行されません

分類Dev

Scrapyがクモを見つけることができません

分類Dev

Scrapy-テーブルの値を取得できません

分類Dev

複数の \ r \ nオカレンスは に置き換える必要があります

分類Dev

Scrapy-より深いリンクをリストすることはできません

分類Dev

Scrapy.CrawlerProcessからScrapy統計を取得できません

分類Dev

タイプjava.lang.Stringの値[string] [string] はJSONArrayに変換できません

分類Dev

半行休憩をとる

分類Dev

Scrapyは現在のプロジェクトで私のスパイダーを見つけることができません

分類Dev

Scrapyを使用すると、親divから子xpathをフェッチできません

分類Dev

divがclearまたはbrで行を区切りません

分類Dev

TabLayoutでsetupWithViewPager（android.support.v4.view.ViewPager）のBRは（androidx.viewpager..widget.ViewPager）に適用することができません

分類Dev

ブレークサイズを サイズに変えることはできますか？

分類Dev

XPath Match Nodes with Only Tags

Related 関連記事

記事

Scrapy / Xpathにダブルを記録させることはできません<br>

Scrapy / Xpathにダブルを記録させることはできません<br>

XPathクエリは、 Scrapyが<br>タグを返さないように強制します

検索を<br>タグに拡張する

ScrapyとPythonを使用するXPathは、XPathを正しく機能させることができません

Scrapyはリストを見ることができません

Scrapy ValueError：URLをなしにすることはできません

BRを解決できません

Xpath nodeValue / textContentが<BR>タグを認識できません

jQueryは\ nを<br>に置き換えましたHTMLは<br>をレンダリングしません

Scrapy-コメントをスクレイピングすると、<br>の後のテキストがスキップされます

<br> <br> <br>生成され、InspectElementにのみ表示されます

HTML 5：<br>、<br/>、または<br />ですか？

MySQL.connectorをPythonのScrapyで動作させることができません

Scrapyは私のディレクトリにファイルを書き込まないので、それを見ることができません

Scrapyスパイダーはクリック時に読み込まれるURLを見つけることができません

JSOUP「<br/>」を選択

</br>と<br/>を\ nに置き換える方法は？

Scrapy spiderは必要なテキストをログに記録しますが（Scrapyシェルでも機能します）、JSONファイルには書き込みません。

<br>を含む文字列はngForで改行されません

Scrapyがクモを見つけることができません

Scrapy-テーブルの値を取得できません

複数の<br/> <br> <br/> \ r \ nオカレンスは<br/>に置き換える必要があります

Scrapy-より深いリンクをリストすることはできません

Scrapy.CrawlerProcessからScrapy統計を取得できません

タイプjava.lang.Stringの値[string] <br> [string] <br>はJSONArrayに変換できません

半行休憩をとる<br>

Scrapyは現在のプロジェクトで私のスパイダーを見つけることができません

Scrapyを使用すると、親divから子xpathをフェッチできません

divがclearまたはbrで行を区切りません

TabLayoutでsetupWithViewPager（android.support.v4.view.ViewPager）のBRは（androidx.viewpager..widget.ViewPager）に適用することができません

<p>ブレークサイズを<br>サイズに変えることはできますか？

XPath Match Nodes with Only <br> Tags

XPathクエリは、 Scrapyが`<br>`タグを返さないように強制します

検索を`<br>`タグに拡張する