为什么python2和python3中的print输出使用相同的字符串不同？

lzutao 发表于 Dev

lzutao

在python2中：

$ python2 -c 'print "\x08\x04\x87\x18"' | hexdump -C
00000000  08 04 87 18 0a                                    |.....|
00000005

在python3中：

$ python3 -c 'print("\x08\x04\x87\x18")' | hexdump -C
00000000  08 04 c2 87 18 0a                                 |......|
00000006

为什么"\xc2"这里有字节？

编辑：

我认为当字符串具有非ascii字符时，python3会将字节附加"\xc2"到字符串中。（如@Ashraful伊斯兰教所说）

那么如何在python3中避免这种情况呢？

汤姆·齐奇

考虑以下代码片段：

import sys
for i in range(128, 256):
    sys.stdout.write(chr(i))

使用Python 2运行它，并使用以下命令查看结果hexdump -C：

00000000  80 81 82 83 84 85 86 87  88 89 8a 8b 8c 8d 8e 8f  |................|

等等。不出意外；从0x80到128个字节0xff。

对Python 3做同样的事情：

00000000  c2 80 c2 81 c2 82 c2 83  c2 84 c2 85 c2 86 c2 87  |................|
...
00000070  c2 b8 c2 b9 c2 ba c2 bb  c2 bc c2 bd c2 be c2 bf  |................|
00000080  c3 80 c3 81 c3 82 c3 83  c3 84 c3 85 c3 86 c3 87  |................|
...
000000f0  c3 b8 c3 b9 c3 ba c3 bb  c3 bc c3 bd c3 be c3 bf  |................|

总结一下：

从0x80到的所有内容0xbf都已0xc2添加。
从0xc0到的所有内容都将第0xff6位设置为零，并且已0xc3添加。

那么，这是怎么回事？

在Python 2中，字符串为ASCII，并且不进行任何转换。告诉它写在0-127 ASCII范围之外的内容，并说“ okey-doke！”。并只写那些字节。简单。

在Python 3中，字符串是Unicode。写入非ASCII字符时，必须以某种方式对它们进行编码。默认编码为UTF-8。

那么，这些值如何用UTF-8编码？

从0x80到的代码点0x7ff编码如下：

110vvvvv 10vvvvvv

其中11个v字符是代码点的位。

从而：

0x80                 hex
1000 0000            8-bit binary
000 1000 0000        11-bit binary
00010 000000         divide into vvvvv vvvvvv
11000010 10000000    resulting UTF-8 octets in binary
0xc2 0x80            resulting UTF-8 octets in hex

0xc0                 hex
1100 0000            8-bit binary
000 1100 0000        11-bit binary
00011 000000         divide into vvvvv vvvvvv
11000011 10000000    resulting UTF-8 octets in binary
0xc3 0x80            resulting UTF-8 octets in hex

因此，这就是为什么要获得c2以前的原因87。

如何在Python 3中避免所有这些？使用bytes类型。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。