別のタグにない限り、タグ内のすべてのテキストを取得します

調査

BeautifulSoupを使用してHTMLを解析しようとしていますsmall。タグ内のすべてのテキストを(再帰的に)取得したいのですが、タグ内に表示されるすべてのテキストを無視したいと思いますたとえば、次のHTMLは次のとおりです。

<li>
  <a href="/path">
    Final
  </a>
  definition.
  <small>
    Fun fact.
  </small>
</li>

テキスト与える必要がありFinal definition.、これは最低限の例であることを注意を。実際のHTMLには他にも多くのタグが含まれているsmallためa、含めるのではなく除外する必要があります

textタグ属性は私が望むものに近いですが、タグFun fact.を除くすべての子のテキストを連結できることが含まsmalldefinition.ますが、それでは次のようなメソッドを見つけることができませんでしたget_text_untilsmallタグは常に最後にあります) 、 それで、なにかお手伝いできますか?

ワンダーナウタ

を使用find_allしてすべての<small>タグを検索し、クリアしてから、次を使用できますget_text()

>>> soup

<li>
<a href="/path">
    Final
  </a>
  definition.
  <small>
    Fun fact.
  </small>
</li>

>>> for el in soup.find_all("small"):
...     el.clear()
...
>>> soup

<li>
<a href="/path">
    Final
  </a>
  definition.
  <small></small>
</li>

>>> soup.get_text()
'\n\n\n    Final\n  \n  definition.\n  \n\n'

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

beautifulsoupを使用して別のタグ内にあるスパンタグ内のテキストを取得するにはどうすればよいですか?

分類Dev

本文からすべてのテキストを取得し、タグに基づいて分割します

分類Dev

body / pタグ内のすべてのテキストを抽出します

分類Dev

Pararagraphタグのすべてのテキストを取得します

分類Dev

lxmlのタグ内のすべてのテキストを取得する

分類Dev

HTMLタグのパラメーター値を同じタグの別のパラメーターに(ソーステキスト内のすべてのタグに対して)コピーするにはどうすればよいですか?

分類Dev

<sup>タグのあるテキストを、<sup>タグのない別のセルと同じ高さにテーブル内で強制します

分類Dev

HTMLスパンタグ内のすべてのテキストを取得し、JavaScriptを使用してクラスタリングします

分類Dev

Scrapy: 別のタグ内のタグのテキストを取得する方法

分類Dev

jqueryはネストされていないテキストの周りにタグを追加します

分類Dev

1つの配列内のすべてのタグからすべてのテキストを取得するにはどうすればよいですか?

分類Dev

1つの配列内のすべてのタグからすべてのテキストを取得するにはどうすればよいですか?

分類Dev

2つの強力なタグの間のテキストのみを取得しようとしています

分類Dev

pタグ内のテキストを取得し、変数に格納します

分類Dev

.text()を使用して、子タグにネストされていないテキストのみを取得する

分類Dev

2つのh2タグ間のすべてのpタグテキストを取得しようとしています

分類Dev

BeautifulSoupを使用して、1つのタグ内に引用符を含むテキストを取得します

分類Dev

ディレクトリ内のすべてのファイルの特定のタグ間の特定のテキストを取得します

分類Dev

私は個別にJAVA / JavaのFXで最初のテキストを追加しない限りペインには、すべての子を追加しません

分類Dev

すべてのテキスト入力フィールドに入力しない限り、フォームボタンを無効にします

分類Dev

Pythonでタグ名を使用して特定のタグ内にテキストを取得する方法

分類Dev

テキストを取得してすべてのタグを削除しますが、タイトルと太字のタグは保持します

分類Dev

VBAを使用して、一連の<li>タグ内にある<span>タグから特定のテキストの最初の出現を取得します

分類Dev

webscrappingを使用してタグ内のテキストの最初の行を取得します

分類Dev

テキストファイル内にリストされているすべてのファイルのタイムスタンプを取得します

分類Dev

beautifulsoupを使用してタグ内のテキストを検索し、その後にタグ内のテキストを返します

分類Dev

lxmlは、タグ内のラップされていないテキストを削除します

分類Dev

HTMLタグ以外のすべてのテキストを選択します

分類Dev

テキスト内の単語を置き換えますが、特定のパターンに含まれていない場合に限ります

Related 関連記事

  1. 1

    beautifulsoupを使用して別のタグ内にあるスパンタグ内のテキストを取得するにはどうすればよいですか?

  2. 2

    本文からすべてのテキストを取得し、タグに基づいて分割します

  3. 3

    body / pタグ内のすべてのテキストを抽出します

  4. 4

    Pararagraphタグのすべてのテキストを取得します

  5. 5

    lxmlのタグ内のすべてのテキストを取得する

  6. 6

    HTMLタグのパラメーター値を同じタグの別のパラメーターに(ソーステキスト内のすべてのタグに対して)コピーするにはどうすればよいですか?

  7. 7

    <sup>タグのあるテキストを、<sup>タグのない別のセルと同じ高さにテーブル内で強制します

  8. 8

    HTMLスパンタグ内のすべてのテキストを取得し、JavaScriptを使用してクラスタリングします

  9. 9

    Scrapy: 別のタグ内のタグのテキストを取得する方法

  10. 10

    jqueryはネストされていないテキストの周りにタグを追加します

  11. 11

    1つの配列内のすべてのタグからすべてのテキストを取得するにはどうすればよいですか?

  12. 12

    1つの配列内のすべてのタグからすべてのテキストを取得するにはどうすればよいですか?

  13. 13

    2つの強力なタグの間のテキストのみを取得しようとしています

  14. 14

    pタグ内のテキストを取得し、変数に格納します

  15. 15

    .text()を使用して、子タグにネストされていないテキストのみを取得する

  16. 16

    2つのh2タグ間のすべてのpタグテキストを取得しようとしています

  17. 17

    BeautifulSoupを使用して、1つのタグ内に引用符を含むテキストを取得します

  18. 18

    ディレクトリ内のすべてのファイルの特定のタグ間の特定のテキストを取得します

  19. 19

    私は個別にJAVA / JavaのFXで最初のテキストを追加しない限りペインには、すべての子を追加しません

  20. 20

    すべてのテキスト入力フィールドに入力しない限り、フォームボタンを無効にします

  21. 21

    Pythonでタグ名を使用して特定のタグ内にテキストを取得する方法

  22. 22

    テキストを取得してすべてのタグを削除しますが、タイトルと太字のタグは保持します

  23. 23

    VBAを使用して、一連の<li>タグ内にある<span>タグから特定のテキストの最初の出現を取得します

  24. 24

    webscrappingを使用してタグ内のテキストの最初の行を取得します

  25. 25

    テキストファイル内にリストされているすべてのファイルのタイムスタンプを取得します

  26. 26

    beautifulsoupを使用してタグ内のテキストを検索し、その後にタグ内のテキストを返します

  27. 27

    lxmlは、タグ内のラップされていないテキストを削除します

  28. 28

    HTMLタグ以外のすべてのテキストを選択します

  29. 29

    テキスト内の単語を置き換えますが、特定のパターンに含まれていない場合に限ります

ホットタグ

アーカイブ