我正在尝试解析txt,例如下面的链接。txt格式为html。我试图获取位于文件顶部的“ COMPANY CONFORMED NAME”,并且我的函数应返回“ Monocle Acquisition Corp”。https://www.sec.gov/Archives/edgar/data/1754170/0001571049-19-000004.txt
我在下面尝试过:
import requests
from bs4 import BeautifulSoup
url = 'https://www.sec.gov/Archives/edgar/data/1754170/0001571049-19-000004.txt'
r = requests.get(url)
soup = BeautifulSoup(r.content, "html")
但是,“汤”根本不包含“公司符合名称”。有人可以指出我正确的方向吗?
您要查找的数据不在HTML结构中,因此Beautiful Soup不是最好的工具。正确而快速的搜索此数据的方法只是使用一个简单的正则表达式,如下所示:
import re
import requests
url = 'https://www.sec.gov/Archives/edgar/data/1754170/0001571049-19-000004.txt'
r = requests.get(url)
text_string = r.content.decode()
name_re = re.compile("COMPANY CONFORMED NAME:[\\t]*(.+)\n")
match = name_re.search(text_string).group(1)
print(match)
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句