Sklearn随机森林模型不会从数据帧中删除标题

依库丘乌·阿努德(Ikechukwu Anude)

我正在尝试使用sklearn将以下数据输入到随机森林算法中。

数据(以csv形式表示):

id,CAP,astroturf,fake_follower,financial,other,overall,self-declared,labels
3039154799,0.7828265255249504,0.1,1.8,1.4,3.2,1.4,0.4,1
390617262,1.0,0.8,1.4,1.0,5.0,5.0,0.2,0
4611389296,0.7334998320027682,0.2,0.6,0.1,1.8,1.1,0.0,1

我的代码:

import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
import numpy as np

master_training_set_path = "data_bank/cleaning_data/master_training_data_id/master_train_one_hot.csv"
df = pd.read_csv(master_training_set_path)
labels = np.array(df["labels"].values)

train, test, train_labels, test_labels = train_test_split(df, labels,
                                                      stratify=labels,
                                                      test_size=0.3)
model = RandomForestClassifier(n_estimators=100, bootstrap=True, max_features='sqrt')

# this is the problematic line
model.fit(train, train_labels)

有问题的行是最后一行,当我运行它时,它返回以下回溯:

Traceback (most recent call last):
  File "path\random_forest.py", line 39, in 
<module>
    model.fit(train, train_labels)
  File "path\sklearn\ensemble\forest.py", line 247, in fit
    X = check_array(X, accept_sparse="csc", dtype=DTYPE)
  File "path\sklearn\utils\validation.py", line 434, in check_array
    array = np.array(array, dtype=dtype, order=order, copy=copy)

ValueError: could not convert string to float: 'self-declared'

我试图确保'train'和'train_label'变量是numpy 2d数组,但是我仍然遇到相同的错误

我感到困惑的是,“自我声明”特征不是值,而是数据集中某个特征的名称。为什么sklearn在训练数据之前不丢弃标题?

格雷里尔

该代码适用于scikit-learn版本:0.23.1如果您使用的是以下版本,则可以尝试更新:

conda install scikit-learn=0.23.1

这个问题可能是,你是提供dftrain_test_split这将工作,但是,它因为模型产生的问题traintestdataframes(页眉)创建的,而不是功能矩阵。因此,您可以尝试替换:

train, test, train_labels, test_labels = train_test_split(df, labels,
                                                      stratify=labels,
                                                      test_size=0.3)

有了这个:

df.drop(['labels'],axis=1,inplace=True) #you have labels in the training set as well.
train, test, train_labels, test_labels = train_test_split(df.values, labels,
                                                      stratify=labels,
                                                      test_size=0.3)

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

结合scikit学习中的随机森林模型

来自分类Dev

随机森林模型中预测结果的差异

来自分类Dev

随机森林预测模型

来自分类Dev

R-随机森林-删除训练数据中不存在的新因子水平

来自分类Dev

提高sklearn中的随机森林回归器的性能

来自分类Dev

在插入符号中拟合随机森林模型后使用partialPlot

来自分类Dev

解释随机森林模型结果

来自分类Dev

Python中的随机森林

来自分类Dev

Python中的随机森林

来自分类Dev

sklearn随机森林索引的功能如何_重要_

来自分类Dev

随机森林 sklearn 变量重要性

来自分类Dev

如何应用PCA和随机森林训练的模型来测试数据?

来自分类Dev

保存的随机森林模型在同一数据集上产生不同的结果

来自分类Dev

将NA随机插入数据帧中

来自分类Dev

R中数据帧的随机分组

来自分类Dev

在随机森林模型(Python,scikit-learn)中访问单个树的底层(tree_)对象

来自分类Dev

随机森林模型中具有递归特征消除的特征选择错误

来自分类Dev

如何将经过尖号训练的随机森林模型输入predict()和performance()函数中?

来自分类Dev

是否可以使用基于模型的树(即partykit包中的`mob()`)构建随机森林

来自分类Dev

是否可以将预测函数与 r 中的随机森林模型一起使用?

来自分类Dev

使用Python的面板数据随机森林

来自分类Dev

在swiftUi中删除并添加模型中的数据时,不会发生过渡

来自分类Dev

Tidymodel包:R中的常规线性模型(glm)和决策树(袋装树,增强树和随机森林)模型

来自分类Dev

sklearn随机森林可以直接处理分类特征吗?

来自分类Dev

sklearn RandomForest:合并随机森林投票并做出最终决定

来自分类Dev

数据不会从表中删除

来自分类Dev

如何从数据帧列表中删除nrow <n的数据帧?

来自分类Dev

如何模拟要在 R 中的随机森林中使用的分类数据?

来自分类Dev

数据帧中的随机数据:创建困难

Related 相关文章

  1. 1

    结合scikit学习中的随机森林模型

  2. 2

    随机森林模型中预测结果的差异

  3. 3

    随机森林预测模型

  4. 4

    R-随机森林-删除训练数据中不存在的新因子水平

  5. 5

    提高sklearn中的随机森林回归器的性能

  6. 6

    在插入符号中拟合随机森林模型后使用partialPlot

  7. 7

    解释随机森林模型结果

  8. 8

    Python中的随机森林

  9. 9

    Python中的随机森林

  10. 10

    sklearn随机森林索引的功能如何_重要_

  11. 11

    随机森林 sklearn 变量重要性

  12. 12

    如何应用PCA和随机森林训练的模型来测试数据?

  13. 13

    保存的随机森林模型在同一数据集上产生不同的结果

  14. 14

    将NA随机插入数据帧中

  15. 15

    R中数据帧的随机分组

  16. 16

    在随机森林模型(Python,scikit-learn)中访问单个树的底层(tree_)对象

  17. 17

    随机森林模型中具有递归特征消除的特征选择错误

  18. 18

    如何将经过尖号训练的随机森林模型输入predict()和performance()函数中?

  19. 19

    是否可以使用基于模型的树(即partykit包中的`mob()`)构建随机森林

  20. 20

    是否可以将预测函数与 r 中的随机森林模型一起使用?

  21. 21

    使用Python的面板数据随机森林

  22. 22

    在swiftUi中删除并添加模型中的数据时,不会发生过渡

  23. 23

    Tidymodel包:R中的常规线性模型(glm)和决策树(袋装树,增强树和随机森林)模型

  24. 24

    sklearn随机森林可以直接处理分类特征吗?

  25. 25

    sklearn RandomForest:合并随机森林投票并做出最终决定

  26. 26

    数据不会从表中删除

  27. 27

    如何从数据帧列表中删除nrow <n的数据帧?

  28. 28

    如何模拟要在 R 中的随机森林中使用的分类数据?

  29. 29

    数据帧中的随机数据:创建困难

热门标签

归档