要素の文字列値を選択するためのXPathですが、<br/>は改行に置き換えられていますか?

アルテム・ドゥマノフ

それは、XPathを呼び出すことが可能であるnormalize-space()表示をHTMLに<br><br/>新しいラインとして?XPathバージョンは1.0です

ウェブサイトからの記事を解析します。実際のHTMLコードの例:

<div id="someid">
    <img src="https://habrastorage.org/webt/ej/ye/hp/ejyehp08ercmqzlhzh3um6mtukm.jpeg"><br>
    <br>
    Организовать удаленный доступ для сотрудников — задача прикладная. Решений на рынке немало, при этом, и подводных камней достаточно. Под катом рассказ о нашем «чемодане», который раскладывается быстро и удобно за 30 минут. Просьба не воспринимать это как рекламный BS, поскольку внутри реальная инструкция по применению.<a name="habracut"></a><br>
    <br>
    <a href="https://www.parallels.com/ru/products/ras/remote-application-server/">Parallels Remote Application Server</a> (RAS) — это комплексное средство для доставки виртуальных приложений и рабочих столов, позволяющее работать с приложениями и данными с любого устройства, в том числе мобильного. Мы понимаем, что такие решения хочется сначала протестировать в конкретных условиях, прежде чем принимать решение о покупке.     <br>
    <br>
</div>

サイトからテキストを抽出できない問題。問題は、normalize-space含まれるすべてのタグを削除することです<br>その結果、長いテキスト行が1行になります。区切りのあるテキスト行が必要です。

期待される結果:

Организовать удаленный доступ для сотрудников — задача прикладная. Решений на рынке немало, при этом, и подводных камней достаточно. Под катом рассказ о нашем «чемодане», который раскладывается быстро и удобно за 30 минут. Просьба не воспринимать это как рекламный BS, поскольку внутри реальная инструкция по применению.

Parallels Remote Application Server(RAS) — это комплексное средство для доставки виртуальных приложений и рабочих столов, позволяющее работать с приложениями и данными с любого устройства, в том числе мобильного. Мы понимаем, что такие решения хочется сначала протестировать в конкретных условиях, прежде чем принимать решение о покупке.
アルテム・ドゥマノフ

残念ながら、私はxpathでこの問題を解決していません。このソリューションはPython(Scrapy Framework)に適していますが、アルゴリズムは他の言語でも同じです。

parsed_text = remove_tags(response.xpath(record['xpath_text']).extract_first())
text = re.sub(r'\n\s*\n', '\n\n' , parsed_text).strip()

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

文字列内のすべての改行を<br />要素に置き換えるにはどうすればよいですか?

分類Dev

MySQLの奇妙な文字は<BRに置き換えられます

分類Dev

javascriptを使用してhtml <br>要素を改行に置き換えます

分類Dev

文字列を<br/>から\ nに置き換えると、二重の区切りが表示されます

分類Dev

文字列内の<br>タグを改行JSに置き換えます

分類Dev

文字列内の<br>タグを改行JSに置き換えます

分類Dev

光沢のある出力で改行をbr()に置き換えます

分類Dev

テキストエリアの改行を<br/>に置き換えるにはどうすればよいですか?

分類Dev

列の「改行」をcsvファイルの「<br/>」に置き換えます-Powershell

分類Dev

複数の<br/> <br> <br/> \ r \ nオカレンスは<br/>に置き換える必要があります

分類Dev

jsは\ nを<br>に置き換えて表示します

分類Dev

\ nを<br />に置き換えます

分類Dev

* <BR>を<li>に置き換えます

分類Dev

を<br>に置き換えます

分類Dev

ASP.NET MVCRazorビューで改行文字を<br/>に置き換えます

分類Dev

PHP-REGEX-preタグ内の改行を<br>に置き換えます

分類Dev

タグのみを含まない行で、改行をbrに置き換えるための正規表現

分類Dev

複数の<br/>タグを新しい行の特定の要素に置き換えるにはどうすればよいですか?

分類Dev

JavaScriptは\ nを<br />に置き換えます

分類Dev

<br> </br>を置き換えると同時にhref属性を削除するにはどうすればよいですか?

分類Dev

</br>と<br/>を\ nに置き換える方法は?

分類Dev

文字列「<br>↵」をjavascript配列のコンマに置き換えます

分類Dev

すべてを置き換える方法&nbsp; および<br> javascriptの文字列から?

分類Dev

<br/>タグの後にデータを選択するXpath

分類Dev

2つのbrを1つのjqueryに置き換えます

分類Dev

DBの<br/>をPHPのDIVに置き換えます

分類Dev

DBの<br/>をPHPのDIVに置き換えます

分類Dev

phpは複数のbrタグを置き換えます

分類Dev

BeautifulSoap出力の<br>をスペースに置き換えます

Related 関連記事

  1. 1

    文字列内のすべての改行を<br />要素に置き換えるにはどうすればよいですか?

  2. 2

    MySQLの奇妙な文字は<BRに置き換えられます

  3. 3

    javascriptを使用してhtml <br>要素を改行に置き換えます

  4. 4

    文字列を<br/>から\ nに置き換えると、二重の区切りが表示されます

  5. 5

    文字列内の<br>タグを改行JSに置き換えます

  6. 6

    文字列内の<br>タグを改行JSに置き換えます

  7. 7

    光沢のある出力で改行をbr()に置き換えます

  8. 8

    テキストエリアの改行を<br/>に置き換えるにはどうすればよいですか?

  9. 9

    列の「改行」をcsvファイルの「<br/>」に置き換えます-Powershell

  10. 10

    複数の<br/> <br> <br/> \ r \ nオカレンスは<br/>に置き換える必要があります

  11. 11

    jsは\ nを<br>に置き換えて表示します

  12. 12

    \ nを<br />に置き換えます

  13. 13

    * <BR>を<li>に置き換えます

  14. 14

    を<br>に置き換えます

  15. 15

    ASP.NET MVCRazorビューで改行文字を<br/>に置き換えます

  16. 16

    PHP-REGEX-preタグ内の改行を<br>に置き換えます

  17. 17

    タグのみを含まない行で、改行をbrに置き換えるための正規表現

  18. 18

    複数の<br/>タグを新しい行の特定の要素に置き換えるにはどうすればよいですか?

  19. 19

    JavaScriptは\ nを<br />に置き換えます

  20. 20

    <br> </br>を置き換えると同時にhref属性を削除するにはどうすればよいですか?

  21. 21

    </br>と<br/>を\ nに置き換える方法は?

  22. 22

    文字列「<br>↵」をjavascript配列のコンマに置き換えます

  23. 23

    すべてを置き換える方法&nbsp; および<br> javascriptの文字列から?

  24. 24

    <br/>タグの後にデータを選択するXpath

  25. 25

    2つのbrを1つのjqueryに置き換えます

  26. 26

    DBの<br/>をPHPのDIVに置き換えます

  27. 27

    DBの<br/>をPHPのDIVに置き換えます

  28. 28

    phpは複数のbrタグを置き換えます

  29. 29

    BeautifulSoap出力の<br>をスペースに置き換えます

ホットタグ

アーカイブ