波兰语编码 - 拆分问题

史密斯

我有一个用 utf-8 编码的带有波兰语字符的文件。我需要做的是玩弄文字。但是当我使用 split(" ") 列表包含 \xc5\x82 或 \u0142

filename = 'patient.txt'
f = open(filename, 'r')
for line in f:
    print line
    print line.split(" ")
    print unicode(line,encoding(line),errors='ignore').split(" ")
f.close()

结果:

   Pacjent lat 48 został przyjęty do Oddziału z powodu spadku tolerancji wysiłku i duszności.
['\xef\xbb\xbfPacjent', 'lat', '48', 'zosta\xc5\x82', 'przyj\xc4\x99ty', 'do', 'Oddzia\xc5\x82u', 'z', 'powodu', 'spadku', 'tolerancji', 'wysi\xc5\x82ku', 'i', 'duszno\xc5\x9bci.']
[u'Pacjent', u'lat', u'48', u'zosta\u0142', u'przyj\u0119ty', u'do', u'Oddzia\u0142u', u'z', u'powodu', u'spadku', u'tolerancji', u'wysi\u0142ku', u'i', u'duszno\u015bci.']

我需要做什么才能在列表中包含波兰语字符?有可能吗?

问候
帕维尔

伊格纳西奥·巴斯克斯-艾布拉姆斯

您的列表中已经有波兰语字符。但是当您打印列表时,您只能看到它的表示。

>>> print u'zosta\u0142'
został

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Python波兰语字符编码问题

来自分类Dev

Ajax呼叫中的波兰语字符编码问题

来自分类Dev

Python中波兰语字符的Unicode编码

来自分类Dev

Microsoft SQL Server中的波兰语编码

来自分类Dev

土耳其语字符问题JSON编码-MySQL

来自分类Dev

波兰语符号实现

来自分类Dev

WebClient.DownloadString()结果某些网站存在编码问题!波斯语(波斯语)

来自分类Dev

MySQL对波兰语字母的支持-ę

来自分类Dev

如何输入波兰语字符?

来自分类Dev

波兰语到后缀符号

来自分类Dev

如何输入波兰语字符?

来自分类Dev

以XML输出波兰语字符

来自分类Dev

拆分/拆分的编译问题

来自分类Dev

使用老挝语从SQL Server 2014导出数据[编码/排序规则问题]

来自分类Dev

使用老挝语从SQL Server 2014导出数据[编码/排序规则问题]

来自分类Dev

Kubuntu 13.10中的波兰语KDE翻译?

来自分类Dev

波兰语解释器和反向符号

来自分类Dev

波兰语字符收到消息imap

来自分类Dev

Kubuntu 13.10中的波兰语KDE翻译?

来自分类Dev

反向波兰语表示法的简化算法

来自分类Dev

PDF波兰语中的字符错误

来自分类Dev

Java的反向波兰语表示法?

来自分类Dev

波兰语字符收到消息imap

来自分类Dev

PoDoFo波兰语字符和PdfContentsTokenizer错误

来自分类Dev

Swift String 省略/转换波兰语重音

来自分类Dev

没有可用的波兰语键盘布局

来自分类Dev

Pandas 问题:标签编码器和拆分列以提供带有标签的数据集

来自分类Dev

Blat 希伯来语编码

来自分类Dev

.265文件的编码问题。Python脚本将它们拆分为NAL单位可产生UnicodeDecodeError