无法将pyspark数据帧加载到决策树算法。它说不能与pyspark数据帧一起使用

debugcn 发表于 Dev

蒙塔基穆拉哈曼

我当时在研究IBM的数据平台。我能够将数据加载到pyspark数据框中，并生成了一个火花SQL表。分割数据集后，将其输入到分类算法中。它会引发错误，例如无法加载spark SQL数据。必需的ndarrays。

from sklearn.ensemble import RandomForestRegressor`
from sklearn.model_selection import train_test_split`
from sklearn import preprocessing`
import numpy as np`

X_train,y_train,X_test,y_test = train_test_split(x,y,test_size = 0.1,random_state = 42)
RM = RandomForestRegressor()
RM.fit(X_train.reshape(1,-1),y_train)`

错误：

TypeError：期望的序列或类似数组的类型，得到了{<} class'pyspark.sql.dataframe.DataFrame'>

发生此错误后，我做了这样的事情：

x = spark.sql('select Id,YearBuilt,MoSold,YrSold,Fireplaces FROM Train').toPandas()
y = spark.sql('Select SalePrice FROM Train where SalePrice is not null').toPandas()

错误：

（）中的AttributeError Traceback（最近一次通话最后一次）（）5 X_train，y_train，X_test，y_test = train_test_split（x，y，test_size = 0.1，random_state = 42）6 RM = RandomForestRegressor（）----> 7 RM.fit（ X_train.reshape（1，-1），y_train）/opt/ibm/conda/miniconda3.6/lib/python3.6/site-packages/pandas/core/generic.py in getattr（self，name）5065 if self ._info_axis._can_hold_identifiers_and_holds_name（name）：5066返回self [name]-> 5067返回对象。getattribute（自身，名称）5068 5069 def setattr（自身，名称，值）：AttributeError：'DataFrame'对象没有属性'reshape'

rbcvl

如sklearn文档所述：

"""
    X : array-like or sparse matrix, shape = [n_samples, n_features]
"""
regr = RandomForestRegressor()
regr.fit(X, y)

因此，首先，您尝试使用apandas.DataFrame代替X作为参数array。

其次，reshape（）方法不是DataFrame对象的属性，而是numpy array。

import numpy as np
x = np.array([[2,3,4], [5,6,7]]) 
np.reshape(x, (3, -1))

希望这可以帮助。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-1

我来说两句

0条评论

登录后参与评论

来自分类Dev

sk-learn：无法训练具有大数据帧的决策树

来自分类Dev

如何将数据集的示例加载到不同的数组中以进行决策树分类？

来自分类Dev

无法使用pyspark数据帧将utm转换为latlong

来自分类Dev

将数据帧加载到列表中

来自分类Dev

如何在将格式错误的 JSON 读入数据帧之前使用 pyspark 修复它

来自分类Dev

Ajax / PHP / MySQL：将数据插入db不能与Ajax和PHP一起使用

来自分类常见问题

有没有更简单的方法可以将100多个PySpark数据帧与不同的列组合在一起（不是合并，而是附加）

来自分类Dev

有没有更简单的方法可以将100多个PySpark数据帧与不同的列组合在一起（不是合并，而是附加）

来自分类Dev

使用pyspark将数据从pyspark数据帧插入到另一个cassandra表中

来自分类Dev

决策树学习算法中的重复训练数据

来自分类Dev

决策树学习算法中的重复训练数据

来自分类Dev

如何使用 PySpark 将一堆数据帧记录发送到 API

来自分类Dev

如何将Timer与返回数据帧的函数一起使用？

来自分类Dev

如何将 LogisticRegressionWIthLBFGS 与 Spark 中的数据帧一起使用

来自分类Dev

将 toEpochDate 与 Spark Scala 的数据帧一起使用的语法 - 优雅

来自分类Dev

如何过滤pyspark数据帧

来自分类Dev

遍历pyspark中的数据帧

来自分类Dev

如何将数据从大熊猫数据帧加载到Spark数据帧

来自分类Dev

Pyspark``for''循环无法使用.filter（）正确过滤pyspark-sql数据帧

来自分类Dev

如何使用Spark数据帧将CSV数据加载到Hive中？

来自分类Dev

将数据存储到SQL不能与我的SQL连接器一起使用并且scrapy

来自分类Dev

如何将json加载到pandas数据帧中？

来自分类Dev

无法将 spark json 数据帧加载到配置单元表中

来自分类Dev

将多个数据帧合并在一起时如何设置数据帧中列的名称？

来自分类Dev

使用rpart决策树进行数据预测

来自分类Dev

Pyspark 数据帧重新分区将所有数据放在一个分区中

来自分类Dev

为什么数据绑定不能与PropertyChanged一起使用？

来自分类Dev

数据绑定不能与Kotlin中的视图绑定一起使用

来自分类Dev

为什么我的输入不能与数据库一起使用？

Related 相关文章

文章