bs4スクレイプの特定のウィキペディアテーブル要素をターゲットにする方法は?

マットニュートニアン

これがBeautifulSoupでターゲットにしようとしているものです

これまでの私のコードは次のとおりです。

from bs4 import BeautifulSoup
soup = BeautifulSoup(website_url,'lxml')
my_table = soup.find('table',{'class':'wikitable sortable'})

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup

my_url = 'https://en.wikipedia.org/wiki/2019%E2%80%9320_Wuhan_coronavirus_outbreak'

uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()

page_soup = soup(page_html, "html.parser")
page_soup.tbody.tr?

このテーブル要素をターゲットにしようとしていますが、一意ではありません。「<tdstyle ... <b」と呼ばれるこのネストされた要素をキャプチャするにはどうすればよいですか?

page_soup.h1を実行してすべてのh1タグを取得することはできますが、ここには繰り返しタグが多数あるため、いくつかのヘルプを使用できます。私はUTFSEを行いましたが、まだ混乱しています。お時間をいただきありがとうございます。

ジャック・フリーティング

私があなたの質問を正しく理解しているなら、あなたはこのようなことを試すことができます:

url = 'https://en.wikipedia.org/wiki/2019%E2%80%9320_Wuhan_coronavirus_outbreak'
import requests
from bs4 import BeautifulSoup as bs
resp = requests.get(url)


soup = bs(resp.text,'lxml')

tabs = soup.find('table',{'class':'wikitable sortable'})
tot = tabs.find_all('tr',{'style':'vertical-align:top'})
for t in tot:    
    rows = t.find_all('td',style=None)
    for r in rows:
        if r.text.strip() == "Total":
            print(m.nextSibling.text)

その背後にある考え方は、ターゲット番号2903が(削除された)テキストのある行の後にあるということですTotal単語Total属性のtdないタグに含まれていstyleます。そのタグを見つけ、ターゲット番号はその直接の兄弟のテキストにあります。

出力:

2,903

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

Googleスプレッドシート-ウィキペディアから特定のテーブルをインポートする方法は?

分類Dev

ウィキペディアページのBS4で特定のスパンクラスをフィルタリングするにはどうすればよいですか?

分類Dev

Pythonを使用して特定のウィキペディアテーブルをスクレイピングする

分類Dev

ウィキペディア:ウィキペディアのテキストマークアップの削除を削除するJavaライブラリ

分類Dev

HTMLページの非アクティブな要素をターゲットにする方法は?

分類Dev

インポートで.srcプレフィックスをディスペンスするSrcレイアウト?開発インストールのためにPyCharmターミナルでvenvをアクティブ化する

分類Dev

Pythonでウィキペディアのテーブルをスクラップする方法

分類Dev

Pythonでウィキペディアのテーブルを選択的にスクレイピングする

分類Dev

行ではなくデータのリストを使用してウィキペディアのテーブルをWebスクレイプするにはどうすればよいですか?

分類Dev

ブートストラップカルーセルのアクティブなスライドをターゲットにする方法は?

分類Dev

オンプレミスのデータゲートウェイトラフィックをサイト間VPN経由でルーティングする方法

分類Dev

テーブルセルが混合形式の場合にウィキペディアの情報ボックスをスクレイピングする

分類Dev

FTPを介したキャメルルートを使用して、ディレクトリ(サブディレクトリを含む)からターゲットにサブディレクトリのない特定のディレクトリにすべてのファイルを移動する方法は?

分類Dev

メディアクエリ:デスクトップ、タブレット、モバイルをターゲットにする方法は?

分類Dev

ブロッククォートbs4の後にテキストをスクラップする

分類Dev

Rでウィキペディアから複数のテーブルをスクレイプします

分類Dev

Python bs4:特定の条件が満たされた場合に、異なるスクレイピングページで「For」ループを繰り返す方法は?

分類Dev

スープとPythonを使用してウィキペディアからテーブルの特定の列の下にコンテンツを取得する方法

分類Dev

Python bs4を使用してウィキペディアテーブルの最初の列の値を取得するにはどうすればよいですか?

分類Dev

ウィキペディアのテーブルをスクレイピングする

分類Dev

HTMLテーブルをスクレイピングしながら最後の2行を動的にスキップする:BS4 Python

分類Dev

特定のディレクトリにテキストを含む特定のファイルをターゲットにしますか?

分類Dev

どのようにモーダルと2ページ目へのリダイレクトあなたが活性化したこと、最初のページにあるボタンをクリックすることにより、ブートストラップ4モーダルをアクティブにするには?

分類Dev

kotlinc-nativeの「ネイティブ依存関係」ダウンロードのターゲットディレクトリを制御する方法は?

分類Dev

rvestを使用してRのウィキペディアテーブルの特定の要素を抽出するにはどうすればよいですか?

分類Dev

bs4を使用してPythonでシングルページアプリケーションのWebサイトをスクレイプする方法

分類Dev

アプリのスクリプトコードがスプレッドシートのコピーを特定のディレクトリに加えてGoogleドライブのルートディレクトリに作成するのはなぜですか?

分類Dev

iOS:要素のデフォルトのアクセシビリティ/ボイスオーバーダブルタップアクションをカスタムのものに置き換える方法はありますか?

分類Dev

モバイルユーザーのwoocommerceチェックアウトフィールドで数字キーパッドをアクティブにする方法は?

Related 関連記事

  1. 1

    Googleスプレッドシート-ウィキペディアから特定のテーブルをインポートする方法は?

  2. 2

    ウィキペディアページのBS4で特定のスパンクラスをフィルタリングするにはどうすればよいですか?

  3. 3

    Pythonを使用して特定のウィキペディアテーブルをスクレイピングする

  4. 4

    ウィキペディア:ウィキペディアのテキストマークアップの削除を削除するJavaライブラリ

  5. 5

    HTMLページの非アクティブな要素をターゲットにする方法は?

  6. 6

    インポートで.srcプレフィックスをディスペンスするSrcレイアウト?開発インストールのためにPyCharmターミナルでvenvをアクティブ化する

  7. 7

    Pythonでウィキペディアのテーブルをスクラップする方法

  8. 8

    Pythonでウィキペディアのテーブルを選択的にスクレイピングする

  9. 9

    行ではなくデータのリストを使用してウィキペディアのテーブルをWebスクレイプするにはどうすればよいですか?

  10. 10

    ブートストラップカルーセルのアクティブなスライドをターゲットにする方法は?

  11. 11

    オンプレミスのデータゲートウェイトラフィックをサイト間VPN経由でルーティングする方法

  12. 12

    テーブルセルが混合形式の場合にウィキペディアの情報ボックスをスクレイピングする

  13. 13

    FTPを介したキャメルルートを使用して、ディレクトリ(サブディレクトリを含む)からターゲットにサブディレクトリのない特定のディレクトリにすべてのファイルを移動する方法は?

  14. 14

    メディアクエリ:デスクトップ、タブレット、モバイルをターゲットにする方法は?

  15. 15

    ブロッククォートbs4の後にテキストをスクラップする

  16. 16

    Rでウィキペディアから複数のテーブルをスクレイプします

  17. 17

    Python bs4:特定の条件が満たされた場合に、異なるスクレイピングページで「For」ループを繰り返す方法は?

  18. 18

    スープとPythonを使用してウィキペディアからテーブルの特定の列の下にコンテンツを取得する方法

  19. 19

    Python bs4を使用してウィキペディアテーブルの最初の列の値を取得するにはどうすればよいですか?

  20. 20

    ウィキペディアのテーブルをスクレイピングする

  21. 21

    HTMLテーブルをスクレイピングしながら最後の2行を動的にスキップする:BS4 Python

  22. 22

    特定のディレクトリにテキストを含む特定のファイルをターゲットにしますか?

  23. 23

    どのようにモーダルと2ページ目へのリダイレクトあなたが活性化したこと、最初のページにあるボタンをクリックすることにより、ブートストラップ4モーダルをアクティブにするには?

  24. 24

    kotlinc-nativeの「ネイティブ依存関係」ダウンロードのターゲットディレクトリを制御する方法は?

  25. 25

    rvestを使用してRのウィキペディアテーブルの特定の要素を抽出するにはどうすればよいですか?

  26. 26

    bs4を使用してPythonでシングルページアプリケーションのWebサイトをスクレイプする方法

  27. 27

    アプリのスクリプトコードがスプレッドシートのコピーを特定のディレクトリに加えてGoogleドライブのルートディレクトリに作成するのはなぜですか?

  28. 28

    iOS:要素のデフォルトのアクセシビリティ/ボイスオーバーダブルタップアクションをカスタムのものに置き換える方法はありますか?

  29. 29

    モバイルユーザーのwoocommerceチェックアウトフィールドで数字キーパッドをアクティブにする方法は?

ホットタグ

アーカイブ