这是我第一次尝试Spark R在Databricks Cloud Community Edition上完成与RStudio相同的工作。但是遇到了一些奇怪的问题。
看来Spark R确实支持ggplot2,plyr之类的程序包,但数据必须为R列表格式。我可以在使用R Studio时生成这种类型的列表train <- read.csv("R_basics_train.csv")
,train
这里的变量是您使用时的列表typeof(train)
。
但是,在Spark R中,当我读取与“ train”相同的csv数据时,它将转换为dataframe,这不是我们以前使用的Spark Python DataFrame,因为我无法使用collect()
函数将其转换为list。 ...当您使用时typeof(train)
,它显示类型为"S4"
,但实际上类型为dataframe...。
那么,Spark R中是否有我可以将数据帧转换为R列表,以便可以在ggplot2,plyr中使用方法的方法?
你可以在这里找到原始的.csv训练数据:火车
后来我发现使用r_df <- collect(spark_df)
可以将Spark DataFrame转换为R数据帧,尽管不能在其数据帧上使用R summary(),但是对于R数据帧,我们可以执行许多R操作。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句