无法将pyspark数据帧加载到决策树算法。它说不能与pyspark数据帧一起使用

蒙塔基穆拉哈曼

我当时在研究IBM的数据平台。我能够将数据加载到pyspark数据框中,并生成了一个火花SQL表。分割数据集后,将其输入到分类算法中。它会引发错误,例如无法加载spark SQL数据。必需的ndarrays。

from sklearn.ensemble import RandomForestRegressor`
from sklearn.model_selection import train_test_split`
from sklearn import preprocessing`
import numpy as np`

X_train,y_train,X_test,y_test = train_test_split(x,y,test_size = 0.1,random_state = 42)
RM = RandomForestRegressor()
RM.fit(X_train.reshape(1,-1),y_train)`

错误:

TypeError:期望的序列或类似数组的类型,得到了{<} class'pyspark.sql.dataframe.DataFrame'>

发生此错误后,我做了这样的事情:

x = spark.sql('select Id,YearBuilt,MoSold,YrSold,Fireplaces FROM Train').toPandas()
y = spark.sql('Select SalePrice FROM Train where SalePrice is not null').toPandas()

错误:

()中的AttributeError Traceback(最近一次通话最后一次)()5 X_train,y_train,X_test,y_test = train_test_split(x,y,test_size = 0.1,random_state = 42)6 RM = RandomForestRegressor()----> 7 RM.fit( X_train.reshape(1,-1),y_train)/opt/ibm/conda/miniconda3.6/lib/python3.6/site-packages/pandas/core/generic.py in getattr(self,name)5065 if self ._info_axis._can_hold_identifiers_and_holds_name(name):5066返回self [name]-> 5067返回对象。getattribute(自身,名称)5068 5069 def setattr(自身,名称,值):AttributeError:'DataFrame'对象没有属性'reshape'

rbcvl

如sklearn文档所述:

"""
    X : array-like or sparse matrix, shape = [n_samples, n_features]
"""
regr = RandomForestRegressor()
regr.fit(X, y)

因此,首先,您尝试使用apandas.DataFrame代替X作为参数array

其次,reshape()方法不是DataFrame对象的属性,而是numpy array

import numpy as np
x = np.array([[2,3,4], [5,6,7]]) 
np.reshape(x, (3, -1))

希望这可以帮助。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

sk-learn:无法训练具有大数据帧的决策树

来自分类Dev

如何将数据集的示例加载到不同的数组中以进行决策树分类?

来自分类Dev

无法使用pyspark数据帧将utm转换为latlong

来自分类Dev

将数据帧加载到列表中

来自分类Dev

如何在将格式错误的 JSON 读入数据帧之前使用 pyspark 修复它

来自分类Dev

Ajax / PHP / MySQL:将数据插入db不能与Ajax和PHP一起使用

来自分类常见问题

有没有更简单的方法可以将100多个PySpark数据帧与不同的列组合在一起(不是合并,而是附加)

来自分类Dev

有没有更简单的方法可以将100多个PySpark数据帧与不同的列组合在一起(不是合并,而是附加)

来自分类Dev

使用pyspark将数据从pyspark数据帧插入到另一个cassandra表中

来自分类Dev

决策树学习算法中的重复训练数据

来自分类Dev

决策树学习算法中的重复训练数据

来自分类Dev

如何使用 PySpark 将一堆数据帧记录发送到 API

来自分类Dev

如何将Timer与返回数据帧的函数一起使用?

来自分类Dev

如何将 LogisticRegressionWIthLBFGS 与 Spark 中的数据帧一起使用

来自分类Dev

将 toEpochDate 与 Spark Scala 的数据帧一起使用的语法 - 优雅

来自分类Dev

如何过滤pyspark数据帧

来自分类Dev

遍历pyspark中的数据帧

来自分类Dev

如何将数据从大熊猫数据帧加载到Spark数据帧

来自分类Dev

Pyspark``for''循环无法使用.filter()正确过滤pyspark-sql数据帧

来自分类Dev

如何使用Spark数据帧将CSV数据加载到Hive中?

来自分类Dev

将数据存储到SQL不能与我的SQL连接器一起使用并且scrapy

来自分类Dev

如何将json加载到pandas数据帧中?

来自分类Dev

无法将 spark json 数据帧加载到配置单元表中

来自分类Dev

将多个数据帧合并在一起时如何设置数据帧中列的名称?

来自分类Dev

使用rpart决策树进行数据预测

来自分类Dev

Pyspark 数据帧重新分区将所有数据放在一个分区中

来自分类Dev

为什么数据绑定不能与PropertyChanged一起使用?

来自分类Dev

数据绑定不能与Kotlin中的视图绑定一起使用

来自分类Dev

为什么我的输入不能与数据库一起使用?

Related 相关文章

  1. 1

    sk-learn:无法训练具有大数据帧的决策树

  2. 2

    如何将数据集的示例加载到不同的数组中以进行决策树分类?

  3. 3

    无法使用pyspark数据帧将utm转换为latlong

  4. 4

    将数据帧加载到列表中

  5. 5

    如何在将格式错误的 JSON 读入数据帧之前使用 pyspark 修复它

  6. 6

    Ajax / PHP / MySQL:将数据插入db不能与Ajax和PHP一起使用

  7. 7

    有没有更简单的方法可以将100多个PySpark数据帧与不同的列组合在一起(不是合并,而是附加)

  8. 8

    有没有更简单的方法可以将100多个PySpark数据帧与不同的列组合在一起(不是合并,而是附加)

  9. 9

    使用pyspark将数据从pyspark数据帧插入到另一个cassandra表中

  10. 10

    决策树学习算法中的重复训练数据

  11. 11

    决策树学习算法中的重复训练数据

  12. 12

    如何使用 PySpark 将一堆数据帧记录发送到 API

  13. 13

    如何将Timer与返回数据帧的函数一起使用?

  14. 14

    如何将 LogisticRegressionWIthLBFGS 与 Spark 中的数据帧一起使用

  15. 15

    将 toEpochDate 与 Spark Scala 的数据帧一起使用的语法 - 优雅

  16. 16

    如何过滤pyspark数据帧

  17. 17

    遍历pyspark中的数据帧

  18. 18

    如何将数据从大熊猫数据帧加载到Spark数据帧

  19. 19

    Pyspark``for''循环无法使用.filter()正确过滤pyspark-sql数据帧

  20. 20

    如何使用Spark数据帧将CSV数据加载到Hive中?

  21. 21

    将数据存储到SQL不能与我的SQL连接器一起使用并且scrapy

  22. 22

    如何将json加载到pandas数据帧中?

  23. 23

    无法将 spark json 数据帧加载到配置单元表中

  24. 24

    将多个数据帧合并在一起时如何设置数据帧中列的名称?

  25. 25

    使用rpart决策树进行数据预测

  26. 26

    Pyspark 数据帧重新分区将所有数据放在一个分区中

  27. 27

    为什么数据绑定不能与PropertyChanged一起使用?

  28. 28

    数据绑定不能与Kotlin中的视图绑定一起使用

  29. 29

    为什么我的输入不能与数据库一起使用?

热门标签

归档