我已经在hdfs中使用sqoop摄取了数据,但是我的数据在单列中包含逗号“,”。当我在spark中使用相同的数据时,它将每个逗号作为分隔符。我该怎么做才能更改这些逗号?
假设如果您内部有xyz列,则第一行有a,b,c,第二行有cd,那么我该怎么做才能避免这些逗号呢?
以文本格式导入数据时,默认字段分隔符为comma(,
)。由于您的数据包含逗号,因此请更改字段定界符。
使用--fields-terminated-by <char>
您的sqoop导入命令。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句