我需要使用字典数据库,但其中大多数是一些字母数字无用的东西,有趣的字段是非字母数字(例如汉字)或放在方括号内。我进行了很多搜索,了解了诸如sed,awk,grep之类的许多工具,我什至曾想过创建一个Python脚本来对其进行整理,但我从未设法找到解决方案。
数据库的一行如下所示:
助 L1782 DN1921 K407 O431 DO346 MN2313 MP2.0376 E314 IN623 DA633 DS248 DF367 DH330 DT284 DC248 DJ826 DG211 DM1800 P1-5-2 I2g5.1 Q7412.7 DR3945 Yzhu4 Wjo ジョ たす.ける たす.かる す.ける すけ {help} {rescue} {assist}
我需要像这样:
助 ジョ たす.ける たす.かる す.ける すけ {help} {rescue} {assist}
我可以使用上面提到的任何工具来执行此操作吗?
如果您仍然想要一个Python解决方案,请执行以下操作:
import re
alpha_brack = re.compile(r"([a-zA-Z0-9.\-]+)|({.*?})")
my_string = """
助 L1782 DN1921 K407 O431 DO346 MN2313 MP2.0376 E314 IN623 DA633 DS248 DF367
DH330 DT284 DC248 DJ826 DG211 DM1800 P1-5-2 I2g5.1 Q7412.7 DR3945 Yzhu4
Wjo ジョ たす.ける たす.かる す.ける すけ {help} {rescue} {assist}"""
match = alpha_brack.findall(my_string)
new_string = my_string
for g0, _ in match: # only care about first group!
new_string = new_string.replace(g0,'',1) # replace only first occurence!
final = re.sub(r'\s{2,}',' ', new_string) # finally, clean up whitespace
print(final)
我的结果:
“协助Josuke Tasukerusukesuke {help} {rescue} {assist}”
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句