Scrapy:条件付きでテーブル内のリンクをスクレイピングする方法

レナフォンエンゲル

私はPythonとScrapyのまったくの初心者であり、完全にテーブル(ほぼ80テーブル)で構築されたWebサイトをスクレイピングする必要があります。

ウェブサイトの構造は次のようなものです。

<table>
<tr>
<td class="header" colspan="2">something</td>
</tr>

</table>
<br/>
<table> 
<tr>
<td class="header" colspan="2">something2</td>
</tr>

</table>
<br/>
<table>
<tr> 
<td class="header" colspan="2">something3</td>
</tr>
</table>

しかし、これらのテーブルの1つにメンバーのリストがあり、各メンバーのプロファイル情報を抽出する必要がありますが、各プロファイルは可変であるため、プライバシー設定に応じて、情報を含むテーブルが変更されます。

私がこする必要があるテーブルはこのようなものですが、多くのメンバーがいます:

<table>
            <tr>
                <td colspan="4" class="header">members</td>
            </tr>
            <tr>
                <td class="title">Name</td>
                <td class="title">position</td>
                <td class="title">hours</td>
                <td class="title">observ</td>
            </tr>

            <tr>
                <td class="c1">       
                    1.- <a href="http://profiletype1" target="_blank">Homer Simpson</a>
                </td>
                <td class="c1">
                    safety inspector
                </td>
                <td class="c1">
                    10
                </td>
                <td class="c1">
                    Neglect his duties
                </td>
            </tr>
<table>

次にコードを調べたところ、2種類のプロファイルがあり、xpathを使用したクエリが互いに交差していないことに気付きました。

次に、リンクを開くと2種類のプロファイルが見つかることを考慮して、各メンバーのプロファイル情報をどのように抽出できるかが問題になります。私はこのようなことをするコードが必要だと思います

def parse(self, response):
if this xpath query doesn't work
try this one
ヘンリケ・クーラ

あなたはすでにあなたの質問に答えていると思います、そして解決策は私が適切な答えを与えることができるように非常にドメイン固有です。とにかく、私が問題にどのようにアプローチするかについてのアイデアを提供しようとします。

def parse(self, respose):
    test = response.xpath("//some expression that only works in method one").extract_first()
    if test is not None:
      return self.parse_with_method_one(response)
    return self.parse_with_method_two(response)

def parse_with_method_one(self, response):
    # your logic

def parse_with_method_two(self, response):
    # your logic

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

R:リンク付きのネストされたhtmlテーブルをスクレイピングします(セル内のテーブル)

分類Dev

Scrapy:テーブルを見つけられないか、テーブル内のデータをスクレイピングできません

分類Dev

スクレイピングでテーブルをこする

分類Dev

Pythonでテーブルをスクレイピングする

分類Dev

Firestoreクエリで「Where」ステートメントを条件付きでレンダリングする方法は?

分類Dev

Rでhtmlテーブルとそのhrefリンクをスクレイピングする

分類Dev

RでJavaScriptテーブルをスクレイピングする方法は?

分類Dev

DivクラスのHTMLをスクレイピングするときにForループ内にIfステートメントをネストする方法

分類Dev

RでテーブルをスクレイピングするときにURLアドレスをデータフレームに貼り付ける

分類Dev

javascriptでページ内のすべてのリンクをスクレイピングする方法

分類Dev

ディレクティブのテンプレート内にあるng-repeatに条件付きで挿入されたhtmlをコンパイルする

分類Dev

ウェブサイトのデータを条件付きでスクレイピングするにはどうすればよいですか?

分類Dev

単一のテーブルからのWebスクレイピング、テキストは私が欲しいものですが、テーブル内のhrefリンクはページ全体からのものです。制限する方法は?

分類Dev

Rで複数のテーブルをスクレイピングする方法は?

分類Dev

Scrapyのクロールページですが、アイテムをスクレイピングしません

分類Dev

テーブルをリストにWebスクレイピングする

分類Dev

C ++テンプレートで条件付きコードをインスタンス化するための最もクリーンな方法

分類Dev

Rでテーブルをスクレイピングするウェブ

分類Dev

Rのリンクからテーブルをスクレイピングする

分類Dev

テーブル内の特定のデータをスクレイピングする

分類Dev

Scrapyを使用してテーブルからデータをスクレイピングする

分類Dev

ウェブページのグリッド内でJavaScriptデータをスクレイピングする

分類Dev

InstagramのプロフィールリンクBeautifulSoupをウェブスクレイピングする方法は?

分類Dev

テーブルの内容をウェブスクレイピングする

分類Dev

httpsサイトでテーブルをスクレイピングするR

分類Dev

パスでテーブルをスクレイピングする

分類Dev

Scrapyでスクレイピングするときに条件を設定できますか?

分類Dev

スタイル付きコンポーネント-小道具に基づいてcssブロック全体を条件付きでレンダリングします

分類Dev

ストリームを使用してコレクションのループを条件付きで終了する方法

Related 関連記事

  1. 1

    R:リンク付きのネストされたhtmlテーブルをスクレイピングします(セル内のテーブル)

  2. 2

    Scrapy:テーブルを見つけられないか、テーブル内のデータをスクレイピングできません

  3. 3

    スクレイピングでテーブルをこする

  4. 4

    Pythonでテーブルをスクレイピングする

  5. 5

    Firestoreクエリで「Where」ステートメントを条件付きでレンダリングする方法は?

  6. 6

    Rでhtmlテーブルとそのhrefリンクをスクレイピングする

  7. 7

    RでJavaScriptテーブルをスクレイピングする方法は?

  8. 8

    DivクラスのHTMLをスクレイピングするときにForループ内にIfステートメントをネストする方法

  9. 9

    RでテーブルをスクレイピングするときにURLアドレスをデータフレームに貼り付ける

  10. 10

    javascriptでページ内のすべてのリンクをスクレイピングする方法

  11. 11

    ディレクティブのテンプレート内にあるng-repeatに条件付きで挿入されたhtmlをコンパイルする

  12. 12

    ウェブサイトのデータを条件付きでスクレイピングするにはどうすればよいですか?

  13. 13

    単一のテーブルからのWebスクレイピング、テキストは私が欲しいものですが、テーブル内のhrefリンクはページ全体からのものです。制限する方法は?

  14. 14

    Rで複数のテーブルをスクレイピングする方法は?

  15. 15

    Scrapyのクロールページですが、アイテムをスクレイピングしません

  16. 16

    テーブルをリストにWebスクレイピングする

  17. 17

    C ++テンプレートで条件付きコードをインスタンス化するための最もクリーンな方法

  18. 18

    Rでテーブルをスクレイピングするウェブ

  19. 19

    Rのリンクからテーブルをスクレイピングする

  20. 20

    テーブル内の特定のデータをスクレイピングする

  21. 21

    Scrapyを使用してテーブルからデータをスクレイピングする

  22. 22

    ウェブページのグリッド内でJavaScriptデータをスクレイピングする

  23. 23

    InstagramのプロフィールリンクBeautifulSoupをウェブスクレイピングする方法は?

  24. 24

    テーブルの内容をウェブスクレイピングする

  25. 25

    httpsサイトでテーブルをスクレイピングするR

  26. 26

    パスでテーブルをスクレイピングする

  27. 27

    Scrapyでスクレイピングするときに条件を設定できますか?

  28. 28

    スタイル付きコンポーネント-小道具に基づいてcssブロック全体を条件付きでレンダリングします

  29. 29

    ストリームを使用してコレクションのループを条件付きで終了する方法

ホットタグ

アーカイブ