bs4スクレイプの特定のウィキペディアテーブル要素をターゲットにする方法は？

debugcn 投稿 Dev

マットニュートニアン

これまでの私のコードは次のとおりです。

from bs4 import BeautifulSoup
soup = BeautifulSoup(website_url,'lxml')
my_table = soup.find('table',{'class':'wikitable sortable'})

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup

my_url = 'https://en.wikipedia.org/wiki/2019%E2%80%9320_Wuhan_coronavirus_outbreak'

uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()

page_soup = soup(page_html, "html.parser")
page_soup.tbody.tr?

このテーブル要素をターゲットにしようとしていますが、一意ではありません。「<tdstyle ... <b」と呼ばれるこのネストされた要素をキャプチャするにはどうすればよいですか？

page_soup.h1を実行してすべてのh1タグを取得することはできますが、ここには繰り返しタグが多数あるため、いくつかのヘルプを使用できます。私はUTFSEを行いましたが、まだ混乱しています。お時間をいただきありがとうございます。

ジャック・フリーティング

私があなたの質問を正しく理解しているなら、あなたはこのようなことを試すことができます：

url = 'https://en.wikipedia.org/wiki/2019%E2%80%9320_Wuhan_coronavirus_outbreak'
import requests
from bs4 import BeautifulSoup as bs
resp = requests.get(url)


soup = bs(resp.text,'lxml')

tabs = soup.find('table',{'class':'wikitable sortable'})
tot = tabs.find_all('tr',{'style':'vertical-align:top'})
for t in tot:    
    rows = t.find_all('td',style=None)
    for r in rows:
        if r.text.strip() == "Total":
            print(m.nextSibling.text)

その背後にある考え方は、ターゲット番号2903が（削除された）テキストのある行の後にあるということですTotal。単語Totalは属性のtdないタグに含まれていstyleます。そのタグを見つけ、ターゲット番号はその直接の兄弟のテキストにあります。

出力：

2,903

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-12

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

bs4スクレイプの特定のウィキペディアテーブル要素をターゲットにする方法は？

bs4スクレイプの特定のウィキペディアテーブル要素をターゲットにする方法は？

Googleスプレッドシート-ウィキペディアから特定のテーブルをインポートする方法は？

ウィキペディアページのBS4で特定のスパンクラスをフィルタリングするにはどうすればよいですか？

Pythonを使用して特定のウィキペディアテーブルをスクレイピングする

ウィキペディア：ウィキペディアのテキストマークアップの削除を削除するJavaライブラリ

HTMLページの非アクティブな要素をターゲットにする方法は？

インポートで.srcプレフィックスをディスペンスするSrcレイアウト？開発インストールのためにPyCharmターミナルでvenvをアクティブ化する

Pythonでウィキペディアのテーブルをスクラップする方法

Pythonでウィキペディアのテーブルを選択的にスクレイピングする

行ではなくデータのリストを使用してウィキペディアのテーブルをWebスクレイプするにはどうすればよいですか？

ブートストラップカルーセルのアクティブなスライドをターゲットにする方法は？

オンプレミスのデータゲートウェイトラフィックをサイト間VPN経由でルーティングする方法

テーブルセルが混合形式の場合にウィキペディアの情報ボックスをスクレイピングする

FTPを介したキャメルルートを使用して、ディレクトリ（サブディレクトリを含む）からターゲットにサブディレクトリのない特定のディレクトリにすべてのファイルを移動する方法は？

メディアクエリ：デスクトップ、タブレット、モバイルをターゲットにする方法は？

ブロッククォートbs4の後にテキストをスクラップする

Rでウィキペディアから複数のテーブルをスクレイプします

Python bs4：特定の条件が満たされた場合に、異なるスクレイピングページで「For」ループを繰り返す方法は？

スープとPythonを使用してウィキペディアからテーブルの特定の列の下にコンテンツを取得する方法

Python bs4を使用してウィキペディアテーブルの最初の列の値を取得するにはどうすればよいですか？

ウィキペディアのテーブルをスクレイピングする

HTMLテーブルをスクレイピングしながら最後の2行を動的にスキップする：BS4 Python

特定のディレクトリにテキストを含む特定のファイルをターゲットにしますか？

どのようにモーダルと2ページ目へのリダイレクトあなたが活性化したこと、最初のページにあるボタンをクリックすることにより、ブートストラップ4モーダルをアクティブにするには？

kotlinc-nativeの「ネイティブ依存関係」ダウンロードのターゲットディレクトリを制御する方法は？

rvestを使用してRのウィキペディアテーブルの特定の要素を抽出するにはどうすればよいですか？

bs4を使用してPythonでシングルページアプリケーションのWebサイトをスクレイプする方法

アプリのスクリプトコードがスプレッドシートのコピーを特定のディレクトリに加えてGoogleドライブのルートディレクトリに作成するのはなぜですか？

iOS：要素のデフォルトのアクセシビリティ/ボイスオーバーダブルタップアクションをカスタムのものに置き換える方法はありますか？

モバイルユーザーのwoocommerceチェックアウトフィールドで数字キーパッドをアクティブにする方法は？