如何使用python解析txt格式的html?

丽莎

我正在尝试解析txt,例如下面的链接。txt格式为html。我试图获取位于文件顶部的“ COMPANY CONFORMED NAME”,并且我的函数应返回“ Monocle Acquisition Corp”。https://www.sec.gov/Archives/edgar/data/1754170/0001571049-19-000004.txt

我在下面尝试过:

import requests
from bs4 import BeautifulSoup

url = 'https://www.sec.gov/Archives/edgar/data/1754170/0001571049-19-000004.txt'
r = requests.get(url)
soup = BeautifulSoup(r.content, "html")

但是,“汤”根本不包含“公司符合名称”。有人可以指出我正确的方向吗?

卢卡·安吉洛尼(Luca Angioloni)

您要查找的数据不在HTML结构中,因此Beautiful Soup不是最好的工具。正确而快速的搜索此数据的方法只是使用一个简单的正则表达式,如下所示:

import re
import requests

url = 'https://www.sec.gov/Archives/edgar/data/1754170/0001571049-19-000004.txt'
r = requests.get(url)
text_string = r.content.decode()

name_re = re.compile("COMPANY CONFORMED NAME:[\\t]*(.+)\n")

match = name_re.search(text_string).group(1)
print(match)

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何在 Python 中解析 .TXT 格式(未标签)的 HTML 文件?

来自分类Dev

如何使用HTML :: Parser解析格式错误的HTML

来自分类Dev

如何在Python中解析格式错误的大型HTML页面?

来自分类Dev

如何使用XmlSlurper解析格式不正确的HTML

来自分类Dev

如何使用python将txt文件转换为json格式?

来自分类Dev

如何使用python pandas将CSV解析为所需的格式?

来自分类Dev

如何使用php解析json格式?

来自分类Dev

如何使用NSDateFormatter解析此格式

来自分类Dev

使用Python解析格式化的JSON

来自分类Dev

如何通过使用Python删除\ n来格式化任何.txt文件的内容?

来自分类Dev

如何使用Python解析HTML并获取表ID

来自分类Dev

python如何解析html

来自分类Dev

如何使用php解析HTML?

来自分类Dev

使用 python 从桌面解析 HTML

来自分类Dev

如何按摩或格式化html以与xmstarlet进行解析?

来自分类Dev

解析.txt文件以使用jQuery填充html select

来自分类Dev

如何使用HTML Agility Pack解析HTML

来自分类Dev

Json格式,Python解析

来自分类Dev

使用php解析txt

来自分类Dev

Android解析特殊格式的txt文件

来自分类Dev

如何使用Python有效地从txt格式文件中删除制表符

来自分类Dev

如何使用RichTextBlock显示html格式

来自分类Dev

如何在Python中解析C格式的字符串?

来自分类Dev

如何使用Perl正确解析我的txt文件中的行

来自分类Dev

如何使用jsonpath解析:kubectl get pods的json格式输出

来自分类Dev

如何解析非格式正确的JSON(也许使用jQuery)

来自分类Dev

如何使用可选字符解析日期格式

来自分类Dev

如何使用argparse更改子解析器的格式

来自分类Dev

如何使用Gson lib解析此json格式

Related 相关文章

热门标签

归档