搜索

搜索

在Scala中编辑CSV文件

debugcn 发表于 Dev

3

DK2

我想编辑csv（超过500MB）文件。如果我有类似的数据

ID, NUMBER
A, 1
B, 3
C, 4
D, 5

我想添加一些额外的列，例如

ID, NUMBER, DIFF
A, 1, 0
B, 3, 2
C, 4, 1
D, 5, 1

该数据也可以是ScSla数据类型。

（输入）原始Csv文件->（输出）（新的csv文件，文件数据（RDD类型？））

Q1。哪种是处理数据的最佳方法？

从原始的csv文件制作一个新的csv文件，然后重新打开新的csv文件以转换为Scala数据。
首先制作新的Scala数据，并将其作为csv文件。

Q2。我需要为此使用“数据框”吗？我应该使用哪个库或API？

扎克·佐哈（Tzach Zohar）

RDD与DataFrame：两者都是不错的选择。建议使用DataFrames，它允许在幕后进行一些额外的优化，但是对于足够简单的任务，性能可能相似。使用DataFrames的另一个优点是可以使用SQL-如果您对SQL感到满意，则只需加载文件，将其注册为临时表并查询它即可执行任何转换。DataFrames的另一个相关优势是可以使用databricks的spark-csv库轻松读取和写入CSV文件。

假设您现在将使用DataFrames（DF）：

流：听起来像你应该

将原始文件加载到DF，调用它 input
将其转换为新的DF，称为 withDiff
在这一点上，缓存结果是有意义的，我们称缓存的DFresult
现在您可以保存result到新的CSV文件
result再次使用您需要的其他任何东西

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-17

0

我来说两句

0条评论

登录后参与评论

相关文章

来自分类Dev

在Scala中编辑CSV文件

来自分类Dev

在Eclipse中编辑CSV文件

来自分类Dev

使用Pandas编辑CSV文件中的数据

来自分类Dev

编辑CSV文件中的错误行

来自分类Dev

编辑Csv文件中的一列

来自分类Dev

根据输入在python中编辑CSV文件

来自分类Dev

逐行编辑CSV文件

来自分类Dev

逐行编辑CSV文件

来自分类Dev

从Scala中的数组制作.csv文件

来自分类Dev

在scala中读取csv文件（数字类型）

来自分类Dev

如何在scala中写入csv文件？

来自分类Dev

熊猫：如何在.csv文件的列中编辑值？

来自分类Dev

CSV文件中的编辑值未正确导入

来自分类Dev

在编辑csv文件中的数据时需要帮助

来自分类Dev

如何使用php编辑.csv文件中的行（可以替换）？

来自分类Dev

熊猫：如何在.csv文件的列中编辑值？

来自分类Dev

编辑CSV文件（设计实现）

来自分类Dev

使用python编辑CSV文件

来自分类Dev

在Qt中编辑文件

来自分类Dev

打开-编辑-保存-使用python将csv文件循环到文件夹中

来自分类Dev

如何将编辑的csv文件保存在子文件夹中

来自分类Dev

在Scala中读取大型csv文件的功能样式

来自分类Dev

在Spark中读取CSV文件时出错-Scala

来自分类Dev

Scala：如何合并数据框中的多个 CSV 文件

来自分类Dev

在python中编辑CSV文件，该文件从python中的另一个json文件读取值

来自分类Dev

如何使用天蓝色函数在天蓝色斑点存储中编辑* .csv文件？

来自分类Dev

打开，编辑和重新保存CSV文件

来自分类Dev

使用PowerShell进行CSV文件编辑

来自分类Dev

使用Python批量编辑csv文件

Related 相关文章

文章

热门标签

归档