我想从文件夹中读取所有文件(带有os.walk
),然后将它们转换为一种编码(UTF-8)。问题是这些文件没有相同的编码。它们可以是UTF-8,带BOM的UTF-8,UTF-16。
有什么方法可以在不知道其编码的情况下读取这些文件?
您可以以二进制模式读取这些文件。还有chardet模块。此外,您可以检测文件的编码并解码获取的数据。虽然此模块有局限性。
举个例子:
from chardet import detect
with open('your_file.txt', 'rb') as ef:
detect(ef.read())
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句