我想编辑csv(超过500MB)文件。如果我有类似的数据
ID, NUMBER
A, 1
B, 3
C, 4
D, 5
我想添加一些额外的列,例如
ID, NUMBER, DIFF
A, 1, 0
B, 3, 2
C, 4, 1
D, 5, 1
该数据也可以是ScSla数据类型。
(输入)原始Csv文件->(输出)(新的csv文件,文件数据(RDD类型?))
Q1。哪种是处理数据的最佳方法?
Q2。我需要为此使用“数据框”吗?我应该使用哪个库或API?
RDD与DataFrame:两者都是不错的选择。建议使用DataFrames,它允许在幕后进行一些额外的优化,但是对于足够简单的任务,性能可能相似。使用DataFrames的另一个优点是可以使用SQL-如果您对SQL感到满意,则只需加载文件,将其注册为临时表并查询它即可执行任何转换。DataFrames的另一个相关优势是可以使用databricks的spark-csv库轻松读取和写入CSV文件。
假设您现在将使用DataFrames(DF):
流:听起来像你应该
input
withDiff
result
result
到新的CSV文件result
再次使用您需要的其他任何东西本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句