美しいスープでテーブル内のすべてのリンクを抽出します

アルク

<td style="text-align: center;"><a title="Some title" href="https://www.blabla.com">Testing</a></td>

タグの子であるBeautifulSoupすべてhrefaタグを取得するために使用しようとしていますtd

走れる

urls = [x for x in soup.findAll("td")]

すべてのtdタグを取得してから手動でループして、aタグが含まれているかどうかを確認し、含まれている場合はを抽出しますがhref、これを1行で行うよりクリーンな方法はありますか?

MendelG

:has()CSSセレクターを使用tdして、タグを持つすべてのタグを選択してみてください<a>

from bs4 import BeautifulSoup

html = """<td style="text-align: center;"><a title="Some title" href="https://www.blabla.com">Testing</a></td>"""
soup = BeautifulSoup(html, "html.parser")
print([tag.find("a")["href"] for tag in soup.select("td:has(a)")])

出力:

['https://www.blabla.com']

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

美しいスープで特定のリンクを抽出する

分類Dev

美しいスープは、2つのことを指定してテーブル内のリンクを見つけます

分類Dev

Pythonで美しいスープを使用してラベル内のコンテンツを抽出するにはどうすればよいですか?

分類Dev

美しいスープを使用してhrefリンクの一部を抽出します

分類Dev

Pythonの美しいスープが複数のテーブルをスクレイピングしますか?

分類Dev

美しいスープ-すべてのテキストを取得しますが、リンクhtmlを保持しますか?

分類Dev

SQLite FTSテーブル内のすべてのトークンをどのように抽出しますか?

分類Dev

Codeigniter:クエリがselect / likeステートメントでテーブル内のすべての行を返しています

分類Dev

美しいスープでウェブスクレイピング、すべてのリンクを入力して情報を取得

分類Dev

セレン/美しいスープで動的テーブル(URLは変更されません)を抽出しようとしています

分類Dev

親/兄弟trテーブルクラスを抽出する美しいスープ

分類Dev

美しいスープを使用して、テーブルの行のセルから値を取得します

分類Dev

美しいスープ:<strong>からすべての<br/>を抽出する

分類Dev

forループでggplotオブジェクトのリストを作成しようとしています。リスト内のすべてのアイテムは、ループからの最後の反復として書き込まれます

分類Dev

Scrapy または美しいスープで特定の HTML タグのコンテンツを抽出する方法は?

分類Dev

範囲を使用して美しいスープのリンクのリストをこすります

分類Dev

PostgresqlSELECTクエリで使用されているすべてのテーブルのリストを取得します

分類Dev

美しいスープ-リスト内のすべてのアイテムのCSV結果

分類Dev

指定されたグループのリストからユーザーを抽出し、PowerShellを使用してテキスト内のすべての新しいグループ名にデータを抽出します

分類Dev

美しいスープでHTMLテーブルの情報を探す

分類Dev

Pythonの美しいスープetsyスクレーパーがすべてのアイテムを集めているわけではありません

分類Dev

テーブルの美しいスープスクレイプは、リストのリストではなく文字列のリストを返しています

分類Dev

Pythonで美しいスープを使用してテーブルをこする

分類Dev

nginx内のフォルダーとその中のすべてのコンテンツをブロックし、localhostを除いて404をスローします。ブラウザがスクリプトのダウンロードを要求しています

分類Dev

安全でないクエリの理由:テーブル内のすべてのデータをクリアする場所のないステートメントを削除しますか?

分類Dev

テーブル内の特定の年のすべてのタイムスタンプを更新します

分類Dev

美しいスープを使用して抽出します

分類Dev

パンダを使用してWebのすべてのテーブルコンテンツを抽出できない

分類Dev

PHPExcelを使用して、FORループ内のIFステートメントでクエリを実行します

Related 関連記事

  1. 1

    美しいスープで特定のリンクを抽出する

  2. 2

    美しいスープは、2つのことを指定してテーブル内のリンクを見つけます

  3. 3

    Pythonで美しいスープを使用してラベル内のコンテンツを抽出するにはどうすればよいですか?

  4. 4

    美しいスープを使用してhrefリンクの一部を抽出します

  5. 5

    Pythonの美しいスープが複数のテーブルをスクレイピングしますか?

  6. 6

    美しいスープ-すべてのテキストを取得しますが、リンクhtmlを保持しますか?

  7. 7

    SQLite FTSテーブル内のすべてのトークンをどのように抽出しますか?

  8. 8

    Codeigniter:クエリがselect / likeステートメントでテーブル内のすべての行を返しています

  9. 9

    美しいスープでウェブスクレイピング、すべてのリンクを入力して情報を取得

  10. 10

    セレン/美しいスープで動的テーブル(URLは変更されません)を抽出しようとしています

  11. 11

    親/兄弟trテーブルクラスを抽出する美しいスープ

  12. 12

    美しいスープを使用して、テーブルの行のセルから値を取得します

  13. 13

    美しいスープ:<strong>からすべての<br/>を抽出する

  14. 14

    forループでggplotオブジェクトのリストを作成しようとしています。リスト内のすべてのアイテムは、ループからの最後の反復として書き込まれます

  15. 15

    Scrapy または美しいスープで特定の HTML タグのコンテンツを抽出する方法は?

  16. 16

    範囲を使用して美しいスープのリンクのリストをこすります

  17. 17

    PostgresqlSELECTクエリで使用されているすべてのテーブルのリストを取得します

  18. 18

    美しいスープ-リスト内のすべてのアイテムのCSV結果

  19. 19

    指定されたグループのリストからユーザーを抽出し、PowerShellを使用してテキスト内のすべての新しいグループ名にデータを抽出します

  20. 20

    美しいスープでHTMLテーブルの情報を探す

  21. 21

    Pythonの美しいスープetsyスクレーパーがすべてのアイテムを集めているわけではありません

  22. 22

    テーブルの美しいスープスクレイプは、リストのリストではなく文字列のリストを返しています

  23. 23

    Pythonで美しいスープを使用してテーブルをこする

  24. 24

    nginx内のフォルダーとその中のすべてのコンテンツをブロックし、localhostを除いて404をスローします。ブラウザがスクリプトのダウンロードを要求しています

  25. 25

    安全でないクエリの理由:テーブル内のすべてのデータをクリアする場所のないステートメントを削除しますか?

  26. 26

    テーブル内の特定の年のすべてのタイムスタンプを更新します

  27. 27

    美しいスープを使用して抽出します

  28. 28

    パンダを使用してWebのすべてのテーブルコンテンツを抽出できない

  29. 29

    PHPExcelを使用して、FORループ内のIFステートメントでクエリを実行します

ホットタグ

アーカイブ