REGEXはEDGARSC-13フォームから情報を抽出します

Lko

最新のSECEDGARスケジュール13フォームファイリングから情報を抽出しようとしています。

例としてのファイリングのリンク:

1)サバキャピタル_27- 2019年12月_SC13

私が抽出しようとしている情報(および情報を提出する部分)

1)報告者の氏名:Saba Capital Management、LP

<p style="margin-bottom: 0pt;">NAME OF REPORTING PERSON</p>
<p style="margin-top: 0pt; margin-left: 18pt;">Saba Capital Management GP, LLC<br><br/>  

2)発行者名:WESTERN ASSET HIGH INCOME FUND II INC

<p style="text-align: center;"><b><font size="5"><u>WESTERN ASSET HIGH INCOME FUND II INC.</u></font><u><br/></u>(Name of Issuer)</b>

3)CUSIP番号:95766J102(なんとか入手可能)

<p style="text-align: center;"><b><u>95766J102<br/></u>(CUSIP Number)</b>   

4)金額で表されるクラスの割合:11.3%(なんとか取得)

<p style="margin-bottom: 0pt;">PERCENT OF CLASS REPRESENTED BY AMOUNT IN ROW (11)</p>
<p style="margin-top: 0pt; margin-left: 18pt;">11.3%<br><br/>

5)この声明の提出を必要とするイベントの日付:2019年12月24日

<p style="text-align: center;"><b><u>December 24, 2019<br/></u>(Date of Event Which Requires Filing of This Statement)</b> 

import requests 
import re
from bs4 import BeautifulSoup

page = requests.get('https://www.sec.gov/Archives/edgar/data/1058239/000106299319004848/formsc13da.htm')
soup = BeautifulSoup(page.text, 'xml')

## get CUSIP number
CUSIP = re.findall(r'[0-9]{3}[a-zA-Z0-9]{2}[a-zA-Z0-9*@#]{3}[0-9]', soup.text)

### get % 
regex = r"(?<=PERCENT OF CLASS|Percent of class)(.*)(?=%)"
percent = re.findall(r'\d+.\d+', re.search(regex, soup.text, re.DOTALL).group().split('%')[0])

ファイリングから5つの情報を抽出するにはどうすればよいですか?前もって感謝します

KunduK

次のコード試して、すべての値を取得してください。find()とcssセレクターselect_one()の使用

import requests
import re
from bs4 import BeautifulSoup

page = requests.get('https://www.sec.gov/Archives/edgar/data/1058239/000106299319004848/formsc13da.htm')
soup = BeautifulSoup(page.text, 'lxml')
NameReportingperson=soup.find('p', text=re.compile('NAME OF REPORTING PERSON')).find_next('p').text.strip()
print(NameReportingperson)
NameOftheIssuer=soup.select_one('p:nth-child(7) > b u').text.strip()
print(NameOftheIssuer)
CUSIP=soup.select_one("p:nth-child(9) > b > u").text.strip()
print(CUSIP)
percentage=soup.find('p', text=re.compile('PERCENT OF CLASS REPRESENTED BY AMOUNT IN ROW')).find_next('p').text.strip()
print(percentage)
Dateof=soup.select_one("p:nth-child(11) > b > u").text.strip()
print(Dateof)

出力

Saba Capital Management, L.P.
WESTERN ASSET HIGH INCOME FUND II INC.
95766J102
11.3%
December 24, 2019

更新しました


位置を使用したくない場合は、1より下を試してください。

import requests
import re
from bs4 import BeautifulSoup

page = requests.get('https://www.sec.gov/Archives/edgar/data/1058239/000106299319004848/formsc13da.htm')
soup = BeautifulSoup(page.text, 'lxml')
NameReportingperson=soup.find('p', text=re.compile('NAME OF REPORTING PERSON')).find_next('p').text.strip()
print(NameReportingperson)
NameOftheIssuer=soup.select_one('p:contains(Issuer)').find_next('u').text.strip()
print(NameOftheIssuer)
CUSIP=soup.select_one('p:contains(CUSIP)').find_next('u').text.strip()
print(CUSIP)
percentage=soup.find('p', text=re.compile('PERCENT OF CLASS REPRESENTED BY AMOUNT IN ROW')).find_next('p').text.strip()
print(percentage)
Dateof=soup.select_one('p:contains(Event)').find_next('u').text.strip()
print(Dateof)

出力

Saba Capital Management, L.P.
WESTERN ASSET HIGH INCOME FUND II INC.
95766J102
11.3%
December 24, 2019

アップデート2:

import requests
import re
from bs4 import BeautifulSoup
page = requests.get('https://www.sec.gov/Archives/edgar/data/1058239/000106299319004848/formsc13da.htm')
soup = BeautifulSoup(page.text, 'lxml')
NameReportingperson=soup.find('p', text=re.compile('NAME OF REPORTING PERSON')).find_next('p').text.strip()
print(NameReportingperson)
NameOftheIssuer=soup.select_one('p:nth-of-type(7) > b u').text.strip()
print(NameOftheIssuer)
CUSIP=soup.select_one("p:nth-of-type(9) > b > u").text.strip()
print(CUSIP)
percentage=soup.find('p', text=re.compile('PERCENT OF CLASS REPRESENTED BY AMOUNT IN ROW')).find_next('p').text.strip()
print(percentage)
Dateof=soup.select_one("p:nth-of-type(11) > b > u").text.strip()
print(Dateof)

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

map()を使用してフォームを作成します。this.stateから情報を入力する方法は?

分類Dev

WindowsフォームのTreeViewのノードから情報を抽出する方法は?

分類Dev

PHPフォームは情報を2回送信します

分類Dev

JavaはJSONから情報を抽出します

分類Dev

PHPフォームは、モバイルデバイスからのみ情報を送信しません

分類Dev

PDFからフォントと色の情報を抽出する良い方法はありますか?

分類Dev

PDFからフォントと色の情報を抽出する良い方法はありますか?

分類Dev

in rは、2つの同じ薄暗いデータフレームからの情報を結合します

分類Dev

Python:Regexを使用してPandasシリーズから情報を抽出する

分類Dev

Goはタイムゾーン情報をどこから取得しますか?

分類Dev

ComboBoxを使用してXMLファイルから情報を抽出する方法は?

分類Dev

Railsのフォームから情報を取得するにはどうすればよいですか?

分類Dev

反応フォームからzohocrmに情報を送信することは可能ですか?

分類Dev

モーダルを送信せずにフォームから情報を送信する方法は?

分類Dev

Python 3を使用してTkinterのフォームからScrolledTextに情報を送信するにはどうすればよいですか?

分類Dev

データベースから情報を抽出する方法は?

分類Dev

Glassfishフォームベースのセキュリティはユーザー情報を取得します

分類Dev

PythonのOSErrorから情報を取得するクロスプラットフォームの方法はありますか?

分類Dev

AJAXフォームは情報を送信しますが、PHPは実行されません

分類Dev

SeleniumでHTMLフォームのポップアップ情報を処理する方法はありますか?

分類Dev

Spring MVCでフォームを送信した後に情報が失われるのはなぜですか?

分類Dev

すでにフォーマットされた10進数または整数から通貨へのカルチャ情報を取得します

分類Dev

スクリプト(LinuxまたはWindowsまたはPython)を使用してログファイルから特定の情報を抽出します

分類Dev

Cant 'はxhrを使用してWebページからいくつかの情報をフェッチします

分類Dev

gitはプルのデフォルトのユーザー情報をどこに保存しますか?

分類Dev

Ember CLIは、デフォルトで分析情報を誰に送信しますか?

分類Dev

ファイルシステムはタイムゾーン情報を保存しますか?

分類Dev

複数のファイルから特定の情報を抽出し、Linuxでテーブルを作成するにはどうすればよいですか?

分類Dev

バッチファイルはほとんど情報なしでテキストファイルから番号を抽出します

Related 関連記事

  1. 1

    map()を使用してフォームを作成します。this.stateから情報を入力する方法は?

  2. 2

    WindowsフォームのTreeViewのノードから情報を抽出する方法は?

  3. 3

    PHPフォームは情報を2回送信します

  4. 4

    JavaはJSONから情報を抽出します

  5. 5

    PHPフォームは、モバイルデバイスからのみ情報を送信しません

  6. 6

    PDFからフォントと色の情報を抽出する良い方法はありますか?

  7. 7

    PDFからフォントと色の情報を抽出する良い方法はありますか?

  8. 8

    in rは、2つの同じ薄暗いデータフレームからの情報を結合します

  9. 9

    Python:Regexを使用してPandasシリーズから情報を抽出する

  10. 10

    Goはタイムゾーン情報をどこから取得しますか?

  11. 11

    ComboBoxを使用してXMLファイルから情報を抽出する方法は?

  12. 12

    Railsのフォームから情報を取得するにはどうすればよいですか?

  13. 13

    反応フォームからzohocrmに情報を送信することは可能ですか?

  14. 14

    モーダルを送信せずにフォームから情報を送信する方法は?

  15. 15

    Python 3を使用してTkinterのフォームからScrolledTextに情報を送信するにはどうすればよいですか?

  16. 16

    データベースから情報を抽出する方法は?

  17. 17

    Glassfishフォームベースのセキュリティはユーザー情報を取得します

  18. 18

    PythonのOSErrorから情報を取得するクロスプラットフォームの方法はありますか?

  19. 19

    AJAXフォームは情報を送信しますが、PHPは実行されません

  20. 20

    SeleniumでHTMLフォームのポップアップ情報を処理する方法はありますか?

  21. 21

    Spring MVCでフォームを送信した後に情報が失われるのはなぜですか?

  22. 22

    すでにフォーマットされた10進数または整数から通貨へのカルチャ情報を取得します

  23. 23

    スクリプト(LinuxまたはWindowsまたはPython)を使用してログファイルから特定の情報を抽出します

  24. 24

    Cant 'はxhrを使用してWebページからいくつかの情報をフェッチします

  25. 25

    gitはプルのデフォルトのユーザー情報をどこに保存しますか?

  26. 26

    Ember CLIは、デフォルトで分析情報を誰に送信しますか?

  27. 27

    ファイルシステムはタイムゾーン情報を保存しますか?

  28. 28

    複数のファイルから特定の情報を抽出し、Linuxでテーブルを作成するにはどうすればよいですか?

  29. 29

    バッチファイルはほとんど情報なしでテキストファイルから番号を抽出します

ホットタグ

アーカイブ