BeautifulSoup を使用してスクレイピングされたテキストを Pandas データ フレームに変換する

プラシャーント・マノハル

以下のコードを使用して、Web サイトからテキストを抽出しています。私はそれを文字列の形で持っています。

import requests
URL = 'https://www.instituteforsupplymanagement.org/about/MediaRoom/newsreleasedetail.cfm?ItemNumber=30655&SSO=1'
r = requests.get(URL)
page = r.text

from bs4 import BeautifulSoup
soup = BeautifulSoup(page, 'lxml')
import re

strong_el = soup.find('strong',text='WHAT RESPONDENTS ARE SAYING …')

ul_tag = strong_el.find_next_sibling('ul')
LI_TAG =''
for li_tag in ul_tag.children:

    LI_TAG += li_tag.string

print LI_TAG

2 列のデータ フレームを作成しようとしています: 1) コメント 2) 業界 (括弧内のサブ文字列)。次のようにStringIOを使用しようとしたときにエラーが発生しました: 「TypeError: data argument can't be an iterator」。これらのコメントをデータ フレームに変換するにはどうすればよいですか?

import sys
if sys.version_info[0] < 3: 
    from StringIO import StringIO
else:
    from io import StringIO

import pandas as pd

LI_TAG = StringIO(LI_TAG)
df = pd.DataFrame(LI_TAG)
ロビー

LI_TAG 変数は単なる長い文字列のようです - したがって、データフレームに格納するには分割する必要があります。

import requests
URL = 'https://www.instituteforsupplymanagement.org/about/MediaRoom/newsreleasedetail.cfm?ItemNumber=30655&SSO=1'
r = requests.get(URL)
page = r.text

from bs4 import BeautifulSoup
soup = BeautifulSoup(page, 'lxml')
import re

strong_el = soup.find('strong',text='WHAT RESPONDENTS ARE SAYING …')

ul_tag = strong_el.find_next_sibling('ul')
LI_TAG =''
for li_tag in ul_tag.children:

    LI_TAG += li_tag.string

# Convert to unicode to remove quotation marks \u201c and \u201d
LI_TAG_U = unicode(LI_TAG)
comments=[]
industries=[]
for string in LI_TAG.strip().split('\n'):
    comment, industry =  string.split(u'\u201d')
    comments.append(comment.strip(u'\u201c'))
    industries.append(industry.strip(' (').strip(')'))

import pandas as pd

data = pd.DataFrame()

data['Comment']=comments
data['Industry']=industries

これがあなたのために働くことを願っています!

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

ネストされた辞書をBeautifulSoupからpandasデータフレームに変換する方法

分類Dev

BeautifulSoupまたはPandasを使用してテーブルデータをスクレイピングする

分類Dev

BeautifulSoupとRequestsand Pandasを使用して、<div>内の<span>からデータをスクレイピングします。

分類Dev

Beautifulsoupのスクレイピングされたテーブルをリストに変換する

分類Dev

BeautifulSoupを使用してデータをデータフレームにスクレイピングします

分類Dev

BeautifulSoup-Pythonを使用してページ付けされたテーブルを介してデータをスクレイピングする

分類Dev

BeautifulSoupを使用してWebページから損益計算書をダウンロードし、Pandasデータフレームに変換しますか?

分類Dev

Pandasデータフレームを辞書に変換する

分類Dev

区切られたアイテムのpythonリストをpandasデータフレームに変換する

分類Dev

BeautifulSoupスクレイピングは、ページに表示されているテキストではなく、{{変数}}を返します

分類Dev

PandasデータフレームをマルチレベルのネストされたJSONに変換する

分類Dev

beautifulsoupを使用してスクリプトタグからデータをスクレイピングします

分類Dev

リストを pandas データフレームに変換する

分類Dev

PandasデータフレームをSparkデータフレームエラーに変換する

分類Dev

Beautifulsoupを使用したWebスクレイピングとテーブルテキスト値の収集

分類Dev

スタックされていないデータフレームを pandas のデータフレームに変換する

分類Dev

JSONファイルをPandasデータフレームに変換する

分類Dev

XMLファイルをPandasデータフレームに変換する方法

分類Dev

ネストされたdictをpandasデータフレームに変換する方法は?

分類Dev

Python-Beautifulsoup-テキストファイルに出力される最後のスクレイピングされたリンクからのデータのみ

分類Dev

Pandasデータフレームでタプルを複数のインデックスに変換する

分類Dev

テキストファイルpythonを解析し、pandasデータフレームに変換します

分類Dev

ネストされたリストを持つGeojsonをpandasデータフレームに変換します

分類Dev

ndarrayをpandasデータフレームに変換します

分類Dev

spacyを使用して、Pandasデータフレーム内の解析されたhtmlテキストの列をレンマタイズします

分類Dev

beautifulsoupからスクレイピングされたデータをcsvファイルに入れる

分類Dev

ネストされたforループ、python3のBeautifulSoupを使用したWebスクレイピング

分類Dev

BeautifulSoupを使用してWebサイトからデータをスクレイピングする際の問題

分類Dev

beautifulSoupを使用して<td>タグからデータを個別にスクレイピングする方法は?

Related 関連記事

  1. 1

    ネストされた辞書をBeautifulSoupからpandasデータフレームに変換する方法

  2. 2

    BeautifulSoupまたはPandasを使用してテーブルデータをスクレイピングする

  3. 3

    BeautifulSoupとRequestsand Pandasを使用して、<div>内の<span>からデータをスクレイピングします。

  4. 4

    Beautifulsoupのスクレイピングされたテーブルをリストに変換する

  5. 5

    BeautifulSoupを使用してデータをデータフレームにスクレイピングします

  6. 6

    BeautifulSoup-Pythonを使用してページ付けされたテーブルを介してデータをスクレイピングする

  7. 7

    BeautifulSoupを使用してWebページから損益計算書をダウンロードし、Pandasデータフレームに変換しますか?

  8. 8

    Pandasデータフレームを辞書に変換する

  9. 9

    区切られたアイテムのpythonリストをpandasデータフレームに変換する

  10. 10

    BeautifulSoupスクレイピングは、ページに表示されているテキストではなく、{{変数}}を返します

  11. 11

    PandasデータフレームをマルチレベルのネストされたJSONに変換する

  12. 12

    beautifulsoupを使用してスクリプトタグからデータをスクレイピングします

  13. 13

    リストを pandas データフレームに変換する

  14. 14

    PandasデータフレームをSparkデータフレームエラーに変換する

  15. 15

    Beautifulsoupを使用したWebスクレイピングとテーブルテキスト値の収集

  16. 16

    スタックされていないデータフレームを pandas のデータフレームに変換する

  17. 17

    JSONファイルをPandasデータフレームに変換する

  18. 18

    XMLファイルをPandasデータフレームに変換する方法

  19. 19

    ネストされたdictをpandasデータフレームに変換する方法は?

  20. 20

    Python-Beautifulsoup-テキストファイルに出力される最後のスクレイピングされたリンクからのデータのみ

  21. 21

    Pandasデータフレームでタプルを複数のインデックスに変換する

  22. 22

    テキストファイルpythonを解析し、pandasデータフレームに変換します

  23. 23

    ネストされたリストを持つGeojsonをpandasデータフレームに変換します

  24. 24

    ndarrayをpandasデータフレームに変換します

  25. 25

    spacyを使用して、Pandasデータフレーム内の解析されたhtmlテキストの列をレンマタイズします

  26. 26

    beautifulsoupからスクレイピングされたデータをcsvファイルに入れる

  27. 27

    ネストされたforループ、python3のBeautifulSoupを使用したWebスクレイピング

  28. 28

    BeautifulSoupを使用してWebサイトからデータをスクレイピングする際の問題

  29. 29

    beautifulSoupを使用して<td>タグからデータを個別にスクレイピングする方法は?

ホットタグ

アーカイブ