如何从Unicode文件中删除字母数字单词

Eizan Prime

我需要使用字典数据库,但其中大多数是一些字母数字无用的东西,有趣的字段是非字母数字(例如汉字)或放在方括号内。我进行了很多搜索,了解了诸如sed,awk,grep之类的许多工具,我什至曾想过创建一个Python脚本来对其进行整理,但我从未设法找到解决方案。

数据库的一行如下所示:

助 L1782 DN1921 K407 O431 DO346 MN2313 MP2.0376 E314 IN623 DA633 DS248 DF367 DH330 DT284 DC248 DJ826 DG211 DM1800 P1-5-2 I2g5.1 Q7412.7 DR3945 Yzhu4 Wjo ジョ たす.ける たす.かる す.ける すけ {help} {rescue} {assist} 

我需要像这样:

助 ジョ たす.ける たす.かる す.ける すけ {help} {rescue} {assist} 

我可以使用上面提到的任何工具来执行此操作吗?

胡安帕·阿里维利亚加

如果您仍然想要一个Python解决方案,请执行以下操作:

import re
alpha_brack = re.compile(r"([a-zA-Z0-9.\-]+)|({.*?})")

my_string = """
助 L1782 DN1921 K407 O431 DO346 MN2313 MP2.0376 E314 IN623 DA633 DS248 DF367 
DH330 DT284 DC248 DJ826 DG211 DM1800 P1-5-2 I2g5.1 Q7412.7 DR3945 Yzhu4 
Wjo ジョ たす.ける たす.かる す.ける すけ {help} {rescue} {assist}"""

match = alpha_brack.findall(my_string)

new_string = my_string

for g0, _ in match: # only care about first group!
    new_string = new_string.replace(g0,'',1) # replace only first occurence!

final = re.sub(r'\s{2,}',' ', new_string) # finally, clean up whitespace

print(final)

我的结果:

“协助Josuke Tasukerusukesuke {help} {rescue} {assist}”

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何从Unicode文件中删除字母数字单词

来自分类Dev

如何从文本中删除所有字母数字单词?

来自分类Dev

从php中的字符串中删除字母数字单词

来自分类Dev

如何从 Python 中的文本文件中删除包含特定字母的单词?

来自分类Dev

仅计算文件特定列中的字母数字单词

来自分类Dev

从文件中的给定单词中删除给定字母

来自分类Dev

如何从VI中的不同单词中删除特定字母

来自分类Dev

如何从Drupal CSS / JS文件中删除随机数字和字母

来自分类Dev

如何替换文件中的单词/数字

来自分类Dev

如何从Excel中的字母数字文本中删除前导零

来自分类Dev

如何从 cassandra 列中的字母数字值中删除字符?

来自分类Dev

如何用特定格式的数字和字母组成的多长度单词中替换某些字母?

来自分类Dev

如何删除单词末尾的数字?

来自分类Dev

无法从字符串中删除包含混合字母和数字的单词

来自分类Dev

如何在保留Unicode编码的字符和撇号(\')的同时删除非字母数字字符?

来自分类Dev

如果单词在PHP中包含数字,如何删除

来自分类Dev

如何删除文本中单词末尾可能出现的数字

来自分类Dev

如何在驱动器C:的根目录中删除这些带有字母数字名称的文件夹?

来自分类Dev

如何删除包含字母或单词的行

来自分类Dev

从给定单词中删除重复字母

来自分类Dev

如何从文件中删除重复的数字?

来自分类Dev

如何仅从文件中打印字母数字行?

来自分类Dev

如何编写pyhton代码,以在文件中打印不包含字母每个字母的单词数?

来自分类Dev

从文件中连续删除两个或多个相同字母的单词

来自分类Dev

如何更改Hunspell词缀文件以允许单词中的数字?

来自分类Dev

如何从文件中的多个单词中删除某些字符?

来自分类Dev

如何从字符串中获取单词(即字母数字)的每个实例并更改它?

来自分类Dev

如何在 Python 中为特定类型的字母数字单词创建正则表达式

来自分类Dev

从文件名中删除非字母数字字符并在Python中重命名

Related 相关文章

  1. 1

    如何从Unicode文件中删除字母数字单词

  2. 2

    如何从文本中删除所有字母数字单词?

  3. 3

    从php中的字符串中删除字母数字单词

  4. 4

    如何从 Python 中的文本文件中删除包含特定字母的单词?

  5. 5

    仅计算文件特定列中的字母数字单词

  6. 6

    从文件中的给定单词中删除给定字母

  7. 7

    如何从VI中的不同单词中删除特定字母

  8. 8

    如何从Drupal CSS / JS文件中删除随机数字和字母

  9. 9

    如何替换文件中的单词/数字

  10. 10

    如何从Excel中的字母数字文本中删除前导零

  11. 11

    如何从 cassandra 列中的字母数字值中删除字符?

  12. 12

    如何用特定格式的数字和字母组成的多长度单词中替换某些字母?

  13. 13

    如何删除单词末尾的数字?

  14. 14

    无法从字符串中删除包含混合字母和数字的单词

  15. 15

    如何在保留Unicode编码的字符和撇号(\')的同时删除非字母数字字符?

  16. 16

    如果单词在PHP中包含数字,如何删除

  17. 17

    如何删除文本中单词末尾可能出现的数字

  18. 18

    如何在驱动器C:的根目录中删除这些带有字母数字名称的文件夹?

  19. 19

    如何删除包含字母或单词的行

  20. 20

    从给定单词中删除重复字母

  21. 21

    如何从文件中删除重复的数字?

  22. 22

    如何仅从文件中打印字母数字行?

  23. 23

    如何编写pyhton代码,以在文件中打印不包含字母每个字母的单词数?

  24. 24

    从文件中连续删除两个或多个相同字母的单词

  25. 25

    如何更改Hunspell词缀文件以允许单词中的数字?

  26. 26

    如何从文件中的多个单词中删除某些字符?

  27. 27

    如何从字符串中获取单词(即字母数字)的每个实例并更改它?

  28. 28

    如何在 Python 中为特定类型的字母数字单词创建正则表达式

  29. 29

    从文件名中删除非字母数字字符并在Python中重命名

热门标签

归档