別のタグにない限り、タグ内のすべてのテキストを取得します

debugcn 投稿 Dev

調査

BeautifulSoupを使用してHTMLを解析しようとしていますsmall。タグ内のすべてのテキストを（再帰的に）取得したいのですが、タグ内に表示されるすべてのテキストを無視したいと思います。たとえば、次のHTMLは次のとおりです。

<li>
  <a href="/path">
    Final
  </a>
  definition.
  <small>
    Fun fact.
  </small>
</li>

テキスト与える必要がありFinal definition.、これは最低限の例であることを注意を。実際のHTMLには他にも多くのタグが含まれているsmallためa、含めるのではなく除外する必要があります。

textタグの属性は私が望むものに近いですが、タグFun fact.を除くすべての子のテキストを連結できることが含まsmallれdefinition.ますが、それでは次のようなメソッドを見つけることができませんでしたget_text_until（smallタグは常に最後にあります）、それで、なにかお手伝いできますか？

ワンダーナウタ

を使用find_allしてすべての<small>タグを検索し、クリアしてから、次を使用できますget_text()。

>>> soup

<li>
<a href="/path">
    Final
  </a>
  definition.
  <small>
    Fun fact.
  </small>
</li>

>>> for el in soup.find_all("small"):
...     el.clear()
...
>>> soup

<li>
<a href="/path">
    Final
  </a>
  definition.
  <small></small>
</li>

>>> soup.get_text()
'\n\n\n    Final\n  \n  definition.\n  \n\n'

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-07-24

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

別のタグにない限り、タグ内のすべてのテキストを取得します

別のタグにない限り、タグ内のすべてのテキストを取得します

beautifulsoupを使用して別のタグ内にあるスパンタグ内のテキストを取得するにはどうすればよいですか？

本文からすべてのテキストを取得し、タグに基づいて分割します

body / pタグ内のすべてのテキストを抽出します

Pararagraphタグのすべてのテキストを取得します

lxmlのタグ内のすべてのテキストを取得する

HTMLタグのパラメーター値を同じタグの別のパラメーターに（ソーステキスト内のすべてのタグに対して）コピーするにはどうすればよいですか？

<sup>タグのあるテキストを、<sup>タグのない別のセルと同じ高さにテーブル内で強制します

HTMLスパンタグ内のすべてのテキストを取得し、JavaScriptを使用してクラスタリングします

Scrapy: 別のタグ内のタグのテキストを取得する方法

jqueryはネストされていないテキストの周りにタグを追加します

1つの配列内のすべてのタグからすべてのテキストを取得するにはどうすればよいですか？

1つの配列内のすべてのタグからすべてのテキストを取得するにはどうすればよいですか？

2つの強力なタグの間のテキストのみを取得しようとしています

pタグ内のテキストを取得し、変数に格納します

.text（）を使用して、子タグにネストされていないテキストのみを取得する

2つのh2タグ間のすべてのpタグテキストを取得しようとしています

BeautifulSoupを使用して、1つのタグ内に引用符を含むテキストを取得します

ディレクトリ内のすべてのファイルの特定のタグ間の特定のテキストを取得します

私は個別にJAVA / JavaのFXで最初のテキストを追加しない限りペインには、すべての子を追加しません

すべてのテキスト入力フィールドに入力しない限り、フォームボタンを無効にします

Pythonでタグ名を使用して特定のタグ内にテキストを取得する方法

テキストを取得してすべてのタグを削除しますが、タイトルと太字のタグは保持します

VBAを使用して、一連の<li>タグ内にある<span>タグから特定のテキストの最初の出現を取得します

webscrappingを使用してタグ内のテキストの最初の行を取得します

テキストファイル内にリストされているすべてのファイルのタイムスタンプを取得します

beautifulsoupを使用してタグ内のテキストを検索し、その後にタグ内のテキストを返します

lxmlは、タグ内のラップされていないテキストを削除します

HTMLタグ以外のすべてのテキストを選択します

テキスト内の単語を置き換えますが、特定のパターンに含まれていない場合に限ります