Scrapy / Xpathにダブルを記録させることはできません<br>

デブリアン

私はscrapyを使用していくつかの詩をクロールしようとしていますが、次のテキストがあります。

Lorem ipsum dolor sit amet,<br>  
consectetuer adipiscing elit.<br> 
<br> 
Aenean commodo ligula eget dolor.<br> 
Aenean massa

そして、私はそれが次のようにスクレイプなxpathであることを選択します:

In [1]: sel.xpath('//div[@class="box"]/text()').extract()
Out[1]:
[u'Lorem ipsum dolor sit amet,',
 u'consectetuer adipiscing elit.',
 u'Aenean commodo ligula eget dolor.',
 u'Aenean massa',]

余分なbrを無視しないようにするにはどうすればよいですか?

イェンスは

XPathクエリは、 Scrapyが<br>タグを返さないように強制します

Scrapyは、<br>タグを無視するように指示したためタグを無視します。XPathクエリ

//div[@class="box"]/text()

のすべてのダイレクトテキストノードの子を//div[@class="box"]選択し、それらのみを選択します。これらの<br>タグの中で、他のノードタイプは単に無視されます。

検索を<br>タグに拡張する

あなたもしたい場合は<br>、トークンが返され、テキストノードとの両方を選択し<br>たトークンを:

(//div[@class="box"]/text() | //div[@class="box"]/br)

ここで、すべての結果をループします。テキストノードに出くわした場合は、その内容を<br>返します。)タグは改行を返します。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

ScrapyとPythonを使用するXPathは、XPathを正しく機能させることができません

分類Dev

Scrapyはリストを見ることができません

分類Dev

Scrapy ValueError:URLをなしにすることはできません

分類Dev

BRを解決できません

分類Dev

Xpath nodeValue / textContentが<BR>タグを認識できません

分類Dev

jQueryは\ nを<br>に置き換えましたHTMLは<br>をレンダリングしません

分類Dev

Scrapy-コメントをスクレイピングすると、<br>の後のテキストがスキップされます

分類Dev

<br> <br> <br>生成され、InspectElementにのみ表示されます

分類Dev

HTML 5:<br>、<br/>、または<br />ですか?

分類Dev

MySQL.connectorをPythonのScrapyで動作させることができません

分類Dev

Scrapyは私のディレクトリにファイルを書き込まないので、それを見ることができません

分類Dev

Scrapyスパイダーはクリック時に読み込まれるURLを見つけることができません

分類Dev

JSOUP「<br/>」を選択

分類Dev

</br>と<br/>を\ nに置き換える方法は?

分類Dev

Scrapy spiderは必要なテキストをログに記録しますが(Scrapyシェルでも機能します)、JSONファイルには書き込みません。

分類Dev

<br>を含む文字列はngForで改行されません

分類Dev

Scrapyがクモを見つけることができません

分類Dev

Scrapy-テーブルの値を取得できません

分類Dev

複数の<br/> <br> <br/> \ r \ nオカレンスは<br/>に置き換える必要があります

分類Dev

Scrapy-より深いリンクをリストすることはできません

分類Dev

Scrapy.CrawlerProcessからScrapy統計を取得できません

分類Dev

タイプjava.lang.Stringの値[string] <br> [string] <br>はJSONArrayに変換できません

分類Dev

半行休憩をとる<br>

分類Dev

Scrapyは現在のプロジェクトで私のスパイダーを見つけることができません

分類Dev

Scrapyを使用すると、親divから子xpathをフェッチできません

分類Dev

divがclearまたはbrで行を区切りません

分類Dev

TabLayoutでsetupWithViewPager(android.support.v4.view.ViewPager)のBRは(androidx.viewpager..widget.ViewPager)に適用することができません

分類Dev

<p>ブレークサイズを<br>サイズに変えることはできますか?

分類Dev

XPath Match Nodes with Only <br> Tags

Related 関連記事

  1. 1

    ScrapyとPythonを使用するXPathは、XPathを正しく機能させることができません

  2. 2

    Scrapyはリストを見ることができません

  3. 3

    Scrapy ValueError:URLをなしにすることはできません

  4. 4

    BRを解決できません

  5. 5

    Xpath nodeValue / textContentが<BR>タグを認識できません

  6. 6

    jQueryは\ nを<br>に置き換えましたHTMLは<br>をレンダリングしません

  7. 7

    Scrapy-コメントをスクレイピングすると、<br>の後のテキストがスキップされます

  8. 8

    <br> <br> <br>生成され、InspectElementにのみ表示されます

  9. 9

    HTML 5:<br>、<br/>、または<br />ですか?

  10. 10

    MySQL.connectorをPythonのScrapyで動作させることができません

  11. 11

    Scrapyは私のディレクトリにファイルを書き込まないので、それを見ることができません

  12. 12

    Scrapyスパイダーはクリック時に読み込まれるURLを見つけることができません

  13. 13

    JSOUP「<br/>」を選択

  14. 14

    </br>と<br/>を\ nに置き換える方法は?

  15. 15

    Scrapy spiderは必要なテキストをログに記録しますが(Scrapyシェルでも機能します)、JSONファイルには書き込みません。

  16. 16

    <br>を含む文字列はngForで改行されません

  17. 17

    Scrapyがクモを見つけることができません

  18. 18

    Scrapy-テーブルの値を取得できません

  19. 19

    複数の<br/> <br> <br/> \ r \ nオカレンスは<br/>に置き換える必要があります

  20. 20

    Scrapy-より深いリンクをリストすることはできません

  21. 21

    Scrapy.CrawlerProcessからScrapy統計を取得できません

  22. 22

    タイプjava.lang.Stringの値[string] <br> [string] <br>はJSONArrayに変換できません

  23. 23

    半行休憩をとる<br>

  24. 24

    Scrapyは現在のプロジェクトで私のスパイダーを見つけることができません

  25. 25

    Scrapyを使用すると、親divから子xpathをフェッチできません

  26. 26

    divがclearまたはbrで行を区切りません

  27. 27

    TabLayoutでsetupWithViewPager(android.support.v4.view.ViewPager)のBRは(androidx.viewpager..widget.ViewPager)に適用することができません

  28. 28

    <p>ブレークサイズを<br>サイズに変えることはできますか?

  29. 29

    XPath Match Nodes with Only <br> Tags

ホットタグ

アーカイブ