我正在编写一个python spark实用程序来读取文件并进行一些转换。文件包含大量数据(最大12GB)。我使用sc.textFile创建一个RDD,逻辑是将RDD中的每一行传递给一个map函数,该函数依次用“,”分隔该行,并运行一些数据转换(根据映射更改字段值)。
文件中的示例行。0014164,02,031270,09,1,,0,0,0000000000,134314,移动电话,ce87862158eb0dff3023e16850f0417a-cs31,584e2cd63057b7ed,Privé,八卦
由于值为“Privé”,我得到了UnicodeDecodeError。我尝试遵循以下方法来解析此值:
if isinstance(v[12],basestring):
v[12] = v[12].encode('utf8')
else:
v[12] = unicode(v[12]).encode('utf8')
但是,当我将数据写回到文件中时,此字段将转换为“Priv�”。在Linux上,源文件类型显示为“ ISO-8859文本,具有很长的行,带有CRLF行终止符”。
有人可以让我知道在Spark中使用混合编码读取/写入文件的正确方法。
您可以在呼叫时设置use_unicode
为。它将为您提供对象(Python 2.x)或对象(Python 3.x)的RDD,这些对象可以使用所需的编码进行进一步处理,例如False
textFile
str
bytes
sc.textFile(path, use_unicode=False).map(lambda x: x.decode("iso-8859-1"))
如果那还不够,可以使用以下数据按原样加载数据 binaryFiles
sc.binaryFiles(path).values().flatMap(lambda x: x.decode("iso-8859-1").splitlines())
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句