在Scala中编辑CSV文件

DK2

我想编辑csv(超过500MB)文件。如果我有类似的数据

ID, NUMBER
A, 1
B, 3
C, 4
D, 5

我想添加一些额外的列,例如

ID, NUMBER, DIFF
A, 1, 0
B, 3, 2
C, 4, 1
D, 5, 1

该数据也可以是ScSla数据类型。

(输入)原始Csv文件->(输出)(新的csv文件,文件数据(RDD类型?))

Q1。哪种是处理数据的最佳方法?

  1. 从原始的csv文件制作一个新的csv文件,然后重新打开新的csv文件以转换为Scala数据。
  2. 首先制作新的Scala数据,并将其作为csv文件。

Q2。我需要为此使用“数据框”吗?我应该使用哪个库或API?

扎克·佐哈(Tzach Zohar)

RDD与DataFrame:两者都是不错的选择。建议使用DataFrames,它允许在幕后进行一些额外的优化,但是对于足够简单的任务,性能可能相似。使用DataFrames的另一个优点是可以使用SQL-如果您对SQL感到满意,则只需加载文件,将其注册为临时表并查询它即可执行任何转换。DataFrames的另一个相关优势是可以使用databricks的spark-csv库轻松读取和写入CSV文件。

假设您现在将使用DataFrames(DF):

:听起来像你应该

  1. 将原始文件加载到DF,调用它 input
  2. 将其转换为新的DF,称为 withDiff
  3. 在这一点上,缓存结果是有意义的,我们称缓存的DFresult
  4. 现在您可以保存result到新的CSV文件
  5. result再次使用您需要的其他任何东西

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

在Scala中编辑CSV文件

来自分类Dev

在Eclipse中编辑CSV文件

来自分类Dev

使用Pandas编辑CSV文件中的数据

来自分类Dev

编辑CSV文件中的错误行

来自分类Dev

编辑Csv文件中的一列

来自分类Dev

根据输入在python中编辑CSV文件

来自分类Dev

逐行编辑CSV文件

来自分类Dev

逐行编辑CSV文件

来自分类Dev

从Scala中的数组制作.csv文件

来自分类Dev

在scala中读取csv文件(数字类型)

来自分类Dev

如何在scala中写入csv文件?

来自分类Dev

熊猫:如何在.csv文件的列中编辑值?

来自分类Dev

CSV文件中的编辑值未正确导入

来自分类Dev

在编辑csv文件中的数据时需要帮助

来自分类Dev

如何使用php编辑.csv文件中的行(可以替换)?

来自分类Dev

熊猫:如何在.csv文件的列中编辑值?

来自分类Dev

编辑CSV文件(设计实现)

来自分类Dev

使用python编辑CSV文件

来自分类Dev

在Qt中编辑文件

来自分类Dev

打开-编辑-保存-使用python将csv文件循环到文件夹中

来自分类Dev

如何将编辑的csv文件保存在子文件夹中

来自分类Dev

在Scala中读取大型csv文件的功能样式

来自分类Dev

在Spark中读取CSV文件时出错-Scala

来自分类Dev

Scala:如何合并数据框中的多个 CSV 文件

来自分类Dev

在python中编辑CSV文件,该文件从python中的另一个json文件读取值

来自分类Dev

如何使用天蓝色函数在天蓝色斑点存储中编辑* .csv文件?

来自分类Dev

打开,编辑和重新保存CSV文件

来自分类Dev

使用PowerShell进行CSV文件编辑

来自分类Dev

使用Python批量编辑csv文件