在Python 3中，如何从字符串中删除所有非UTF8字符？

debugcn 发表于 Dev

戴夫

我正在使用Python 3.7。如何从字符串中删除所有非UTF-8字符？我尝试在下面使用“ lambda x：x.decode（'utf-8'，'ignore'）。encode（“ utf-8”）“

coop_types = map(
    lambda x: x.decode('utf-8','ignore').encode("utf-8"),
    filter(None, set(d['type'] for d in input_file))
)

但这导致错误...

Traceback (most recent call last):
  File "scripts/parse_coop_csv.py", line 30, in <module>
    for coop_type in coop_types:
  File "scripts/parse_coop_csv.py", line 25, in <lambda>
    lambda x: x.decode('utf-8','ignore').encode("utf-8"),
AttributeError: 'str' object has no attribute 'decode'

如果您有一种通用的方式可以从字符串中删除所有非UTF8字符，那就是我想要的。

暗影游侠

您从一个字符串开始。你不能decode一str（它已经解码的文字，你只能再次编码成二进制数据）。UTF-8几乎对任何有效的Unicode文本（str存储的内容）进行编码，因此不会太多，但是如果您在输入中遇到替代字符，则可以反转方向，更改：

x.decode('utf-8','ignore').encode("utf-8")

至：

x.encode('utf-8','ignore').decode("utf-8")

在其中编码任何UTF-8可编码的东西，丢弃不可编码的东西，然后解码现在干净的UTF-8字节。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-2

我来说两句

0条评论

登录后参与评论

来自分类Dev

如何在python中构建utf8字符串

来自分类Dev

如何删除python字符串的最后utf8字符

来自分类Dev

在Python 3和Python 2中处理CSV中的非UTF8字符

来自分类Dev

python用3个字节的utf8字符拆分unicode字符串

来自分类Dev

在python 3中将转义的utf-8字符串转换为utf

来自分类Dev

Python将UTF8字符串插入SQLite

来自分类Dev

在Python中的字符串中查找utf8子字符串的位置

来自分类Dev

使用python将utf-8字符串保存到sqlite表中（sqlite3模块）

来自分类Dev

utf-8字符串从python到AWS中的Java android

来自分类Dev

如何删除在python3字符串对象中显示为\ uxxx的特殊字符？

来自分类Dev

在Python中，如何最有效地对utf-8字符串进行分块以进行REST交付？

来自分类Dev

如何通过Python 3中作为命令行参数提供的转义序列来拆分UTF-8字符串？

来自分类Dev

PHP从字符串中删除所有非UTF-8字符

来自分类常见问题

Python，从字符串中删除所有非字母字符

来自分类Dev

Python反转UTF-8字符串

来自分类Dev

如何在Python中删除从字符串到特定字符的所有内容

来自分类Dev

如何从字符串python中删除所有表情符号（unicode）字符

来自分类Dev

如何在Python中将UTF8字符串从应用程序保留到Web服务器

来自分类Dev

如何在Python中用前面的数字分割utf-8字符串？

来自分类Dev

Python：如何从sqlite数据库查询utf-8字符串

来自分类Dev

Python，从字符串中删除所有html标签

来自分类Dev

Python从字符串中删除所有撇号

来自分类Dev

Python从字符串中删除所有撇号

来自分类Dev

Python：将utf-8字符串转换为字节字符串

来自分类Dev

Python：将utf-8字符串转换为字节字符串

来自分类Dev

字节数组是Java中有效的UTF8编码的字符串，但不是Python中的字符串

来自分类Dev

为什么我无法在python2.7中解码'utf8'字符串？

来自分类Dev

为什么我无法在python2.7中解码'utf8'字符串？

来自分类Dev

用Python计算UTF8字符

Related 相关文章

文章