如何从txt文件中删除奇怪的编码

adrCoder

我正在尝试处理这样的文本文件:

http://www.sec.gov/Archives/edgar/data/789019/000119312514289961/0001193125-14-289961.txt

如果您在文件中间看到,则如下所示:

</TEXT>
</DOCUMENT>
<DOCUMENT>
<TYPE>EXCEL
<SEQUENCE>21
<FILENAME>Financial_Report.xlsx
<DESCRIPTION>IDEA: XBRL DOCUMENT
<TEXT>
begin 644 Financial_Report.xlsx
M4$L#!!0`!@`(````(0!):[_C#0,``+!)```3``@"6T-O;G1E;G1?5'EP97-=
M+GAM;""B!`(HH``"````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M````````````````````````````````````````````````````````````
M``````````````````````````````````````#,W,M.VT`4QO%]I;Z#Y6V5
M>([OK@@L>EFV2*4/,+4GQ,(W>08*;]^)N0BA%(2*U/^&B,2>\\6+G[+YSM')
M==\%5V:V[3AL0EFK,#!#/3;M<+X)?YY]795A8)T>&MV-@]F$-\:&)\?OWQV=
MW4S&!O[NP6["G7/3QRBR]<[TVJ['R0S^D^TX]]KY?^?S:-+UA3XW4:Q4'M7C
MX,S@5FY_1GA\]-EL]67G@B_7_NW;)+/I;!A\NKUP/VL3ZFGJVEH[GS2Z&IHG
M4U9W$];^SN4:NVLG^\''"*.#$_:?_'W`W7W?_:.9V\8$IWIVWW3O8T377?1[
MG"]^C>/%^OE##J0<M]NV-LU87_;^":SM-!O=V)TQKN_6R^NZU^UPG_N9^<O%
M-EI>Y(V#[+_?<O`K<\20'`DD1PK)D4%RY)`<!21'"<E107*(H@2AB"H44H5B
MJE!0%8JJ0F%5**X*!5:AR!I39(TILL8466.*K#%%UI@B:TR1-:;(&E-DC2FR
M)A19$XJL"476A")K0I$UH<B:4&1-*+(F%%D3BJPI1=:4(FM*D36ER)I29$TI
MLJ8465.*K"E%UI0B:T:1-:/(FE%DS2BR9A19,XJL&476C")K1I$UH\B:4V3-
M*;+F%%ESBJPY1=:<(FM.D36GR)I39,TILA8460N*K`5%UH(B:T&1M:#(6E!D
M+2BR%A19"XJL)476DB)K29&UI,A:4F0M*;*6%%E+BJPE1=:2(FM%D;6BR%I1
M9*THLE8462N*K!5%UHHB:T61M:+(*HI"JRB*K:(HN(JBZ"J*PJLHBJ^B*,"*
MH@@KBD*L*(RQH#H6QEA.(8O3R.)4LCB=+$XIB]/*XM2R,+TLP12S!-/,$DPU
M2S#=+,&4LP33SA),/4LP_2S!%+0$T]"2_U;1<GX?CHF6O__^`W8YYH6%+-;=
M=,:^\1*%VT-?FKS3LVE^N-EO#GKS`(_/?BZ'WZMS.H^3]1N&9O/ZIW"_0FA_
M]VKR!YG9M>9AB="A93P/$_UVHM</?+(-R.SW'S6F.3`[6O8M'?\!``#__P,`
M4$L#!!0`!@`(````(0"U53`C]0```$P"```+``@"7W)E;',O+G)E;',@H@0"

这似乎是一个excel文件吗?还是XBRL文档?那是什么 ?我如何摆脱它(或以某种方式“处理”它?)这种情况持续了数千行,所以我想它是某些附件的某些链接的某种编码?知道如何处理吗?

我正在尝试在Python中使用BeautifulSoup:

from bs4 import BeautifulSoup

with open("textWithHtml.txt") as markup:
    soup = BeautifulSoup(markup.read())

with open("processedText.txt", "w") as f: 
    f.write(soup.get_text().encode('utf-8'))

但并非所有内容都被删除,而且我注意到在某些情况下甚至没有删除所有html标记。有时运行两次代码会比第一次运行BeautifulSoup代码时删除的内容多。

adrCoder

使用此处提供的sed命令可以有效地解决此问题:sed命令-在文件夹的所有文本(.txt)文件中应用

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

在Linux中删除* .txt文件之前如何计算和添加到文件?

来自分类Dev

从存储库中删除奇怪的“ Iconr”文件

来自分类Dev

与使用Python的txt文件中的列表相比,如何从csv文件中删除行?

来自分类Dev

在Python中从.txt文件中删除页码

来自分类Dev

使用奇怪的编码从Python中的.txt网址收集数据

来自分类Dev

如何从.txt文件中删除空行

来自分类Dev

如何从txt文件中删除一行

来自分类Dev

在读取网页中的TXT文件iframe时,如何停止浏览器对<,>和&进行编码?

来自分类Dev

如何从另一个txt文件中存在的txt文件中删除单词?

来自分类Dev

从.txt文件中删除引号

来自分类Dev

删除txt文件中的回车

来自分类Dev

如何删除VSCODE中的这些奇怪的工件?

来自分类Dev

如何从另一个txt文件中存在的txt文件中删除单词?

来自分类Dev

更改txt文件的编码

来自分类Dev

如何删除Windows 8中的所有.txt文件?

来自分类Dev

如何从txt文件中删除特定行

来自分类Dev

如何从R中的txt文件中删除n行?

来自分类Dev

如何从C#中的txt文件中删除XML元素

来自分类Dev

从存储库中删除奇怪的“ Iconr”文件

来自分类Dev

如何从文件名中删除URI编码?

来自分类Dev

在Linux中,如何删除* .txt模式以外的所有文件?

来自分类Dev

如何删除.txt文件的第二列?

来自分类Dev

如何删除txt文件(PHP)中的特殊数据

来自分类Dev

尝试在.txt文件中输出Web抓取结果时,如何摆脱Unicode编码错误

来自分类Dev

如何删除文件夹中除list.txt中的名称文件之外的文件?

来自分类Dev

奇怪的文件,如何将其删除?

来自分类Dev

如何从导航中删除奇怪的类代码?

来自分类Dev

如何删除使用 NodeJS + AngularJS 从文件中删除某些内容的奇怪错误

来自分类Dev

如何删除里面有奇怪文件的文件夹?

Related 相关文章

  1. 1

    在Linux中删除* .txt文件之前如何计算和添加到文件?

  2. 2

    从存储库中删除奇怪的“ Iconr”文件

  3. 3

    与使用Python的txt文件中的列表相比,如何从csv文件中删除行?

  4. 4

    在Python中从.txt文件中删除页码

  5. 5

    使用奇怪的编码从Python中的.txt网址收集数据

  6. 6

    如何从.txt文件中删除空行

  7. 7

    如何从txt文件中删除一行

  8. 8

    在读取网页中的TXT文件iframe时,如何停止浏览器对<,>和&进行编码?

  9. 9

    如何从另一个txt文件中存在的txt文件中删除单词?

  10. 10

    从.txt文件中删除引号

  11. 11

    删除txt文件中的回车

  12. 12

    如何删除VSCODE中的这些奇怪的工件?

  13. 13

    如何从另一个txt文件中存在的txt文件中删除单词?

  14. 14

    更改txt文件的编码

  15. 15

    如何删除Windows 8中的所有.txt文件?

  16. 16

    如何从txt文件中删除特定行

  17. 17

    如何从R中的txt文件中删除n行?

  18. 18

    如何从C#中的txt文件中删除XML元素

  19. 19

    从存储库中删除奇怪的“ Iconr”文件

  20. 20

    如何从文件名中删除URI编码?

  21. 21

    在Linux中,如何删除* .txt模式以外的所有文件?

  22. 22

    如何删除.txt文件的第二列?

  23. 23

    如何删除txt文件(PHP)中的特殊数据

  24. 24

    尝试在.txt文件中输出Web抓取结果时,如何摆脱Unicode编码错误

  25. 25

    如何删除文件夹中除list.txt中的名称文件之外的文件?

  26. 26

    奇怪的文件,如何将其删除?

  27. 27

    如何从导航中删除奇怪的类代码?

  28. 28

    如何删除使用 NodeJS + AngularJS 从文件中删除某些内容的奇怪错误

  29. 29

    如何删除里面有奇怪文件的文件夹?

热门标签

归档