python lxmlを使用して、複数の<br/>タグを1つのタグにマージします

debugcn 投稿 Dev

楽しい

削り取られたhtmlコンテンツをクリーンアップするPythonスクリプトがあります。これは、BeautifulSoup4を使用しており、非常にうまく機能します。最近、私はlxmlを学ぶことにしましたが、チュートリアルに従うのが（私にとって）難しいことがわかりました。たとえば、次のコードを使用して、複数の<br />タグを1つにマージします。つまり、複数のタグがある場合は、1つ<br />だけを残して、すべてを削除します。

from bs4 import BeautifulSoup, Tag
data = 'foo<br /><br>bar. <p>foo<br/><br id="1"><br/>bar'
soup = BeautifulSoup(data)
for br in soup.find_all("br"):
    while isinstance(br.next_sibling, Tag) and br.next_sibling.name == 'br':
        br.next_sibling.extract()
print soup
<html><body><p>foo<br/>bar. </p><p>foo<br/>bar</p></body></html>

lxmlでこれと同様の方法を実現するにはどうすればよいですか？ありがとう、

jfs

タグの.drop_tag()重複した連続した出現を削除する方法を試すことができます<br/>：

from lxml import html

doc = html.fromstring(data)
for br in doc.findall('.//br'):
    if br.tail is None: # no text immediately after <br> tag
        for dup in br.itersiblings():
            if dup.tag != 'br': # don't merge if there is another tag inbetween
                break
            dup.drop_tag()
            if dup.tail is not None: # don't merge if there is a text inbetween
               break

print(html.tostring(doc))
# -> <div><p>foo<br>bar. </p><p>foo<br>bar</p></div>

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-25

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

python lxmlを使用して、複数の<br/>タグを1つのタグにマージします

python lxmlを使用して、複数の<br/>タグを1つのタグにマージします

Pythonを使用してxml内の複数の<br>間のテキストを取得します

Python、美しいスープ、<br>タグ

<br>タグで分割されたlxml、python、.tailを使用したHTML解析

タグを削除し、すべてのbrタグとpタグを1つのスペースに置き換えます

Pythonのre.sub（）を使用して、指定されたタグ間で\ nを<br>に置き換える

1つのWebで複数のページからデータをスクレイピングする方法、PythonとBeautifulSoupを使用しています

<br/>タグ間のリストから要素を削除する-PYTHON

<br>タグの代わりに何を使用しますか？

lxmlを使用してPythonで複数の名前空間XMLを解析する

複数の<br>タグをjavascriptに置き換えます

BeautifulSoupとPythonを使用して、クラスを持つh1タグやpタグなど、複数のタグからテキストを抽出します。

複数の類似したタグ「named」値の1つを抽出する[Python-lxml]

2つのデータフレームをマージし、1つのデータフレームの1つの行を他のデータフレームのすべての行にマッピングするPython Pandas

Pythonは相互作用データを1つの行にマージします

Python3 4ワードの後に配列の各要素に<br>タグを追加する方法は？

brタグの正規表現の前にすべてを削除します

brタグの正規表現の前にすべてを削除します

Python 3.xを使用して、複数の列をcsvの1つの列にスタックします

phpは複数のbrタグを置き換えます

br、PYTHON3以外の特徴的なタグがないhtmlからテキストをスクレイピングしようとしています

Pythonを使用してCSVの1つの列からタグを抽出します

Pythonを使用して複数の画像を斜めに1つの画像にマージする方法

Pythonとbeautifulsoupを使用して<br/>タグの後の文字列（特定のシナリオの日付値）を解析する方法

1つのx軸を使用して1つのデータフレームから複数のグラフをプロットする-Python

Python / Elementtreeを使用してXMLツリーに同じタグを持つ複数のサブ要素を追加します

2つの<br>タグの前にデータを取得するXpath

Python Webスクレイピング：複数のタグを持つ1つの属性を抽出します

Python Pandas：列名を持つデータフレームの列を1つの列にマージします

パンダ複数の値を持つ行データを列のPythonリストにマージします