如何在scikit中对分类数据使用一个热编码器?

雅亚·乌丁(Yahya Uddin)

我有以下数组(实际上是具有类似数组数据结构的Panda数据框),其类似于以下内容:

[
   ['M', 4, 15]
   ['M', 3, 7]
   ['F', 5, 9]
   ['I', 4, 15]
]

我希望对此数据进行预处理,以便可以在线性回归中使用它。我相信这样做的方法是使用一种热编码器:http : //scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder

但是,仅当类别为整数时才有效。

我相信您可以使用以下代码来做到这一点DictVectorizerhttp : //scikit-learn.org/stable/modules/genic/sklearn.feature_extraction.DictVectorizer.html#sklearn.feature_extraction.DictVectorizer

但是,这似乎仅适用于字典,而不适用于数组。

亚历克斯·阿里莫夫(Alex Alifimoff)

使用类似于以下代码的代码将类别映射为整数:

def tokenize(data, col_of_category):
    str_to_int, int_to_str = {}, {}
    for row in data:
        cat = row[col_of_category]
        if cat in str_to_int.keys(): token = str_to_int[cat]
        else:
            token = len(str_to_int.keys())
            str_to_int[cat] = token
            int_to_str[token] = cat
        row[col_of_category] = token # assuming your rows are mutable
    return str_to_int, int_to_str

然后,您可以使用返回的字典来将来管理映射和取消映射。然后,您可以使用OneHotEncoder您的算法不在乎是否涉及字符串。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何像一个热编码器一样使用 spark scala 将单个多个分类列拆分为二进制?

来自分类常见问题

Tensorflow一个热编码器?

来自分类Dev

如何在熊猫数据框中将字节中的“一个热编码”列名解码为字符串

来自分类Dev

如何从数据帧在Keras流中馈入一个热编码矢量数据帧

来自分类Dev

有没有一种方法可以在不使用一个热编码器的情况下训练RNN?

来自分类Dev

如何在numpy中向量化一个热编码循环

来自分类Dev

如何在 scitkit 模型中拟合一个热编码类

来自分类Dev

TypeError:__init __()获得了意外的关键字参数'categorical_features'一个热编码器

来自分类Dev

TypeError:__init __()获得了意外的关键字参数'categorical_features'一个热编码器

来自分类Dev

如何使用熊猫基于两个分类列的组合进行一次热编码?

来自分类Dev

在scikit中使用标签编码器编码数据时发生TypeError学习

来自分类Dev

如何在编码器-解码器时间序列模型中将一个点添加为特征?

来自分类Dev

如何在Metal中组合使用不同着色器的渲染命令编码器

来自分类Dev

从LSTM自动编码器输入分类器数据

来自分类Dev

机器学习:如何在具有分类和数字功能的熊猫数据帧上应用一种热编码?

来自分类Dev

使用MultiEncoder,我有一个数组encoders [],我想知道编码器接受哪种数据类型。那怎么可能?

来自分类Dev

一种热编码返回最后一个分类值的所有0向量

来自分类Dev

如何在R中将2个单独的分类变量编码为一个变量?

来自分类Dev

如何获得一个句子的热编码?

来自分类Dev

将一个热编码列转换为分类标签

来自分类Dev

使用一个实例更新weka中的分类器

来自分类Dev

为什么ffmpeg用flac编码器编码一个ogg文件?

来自分类Dev

如何设计一个共享的加权多输入/输出自动编码器网络?

来自分类Dev

如何在ImageDataGenerator中对序列数据进行热编码?

来自分类Dev

这是一个热编码吗?

来自分类Dev

如何在某一列的一个单元格内拆分项目并实现单热编码?

来自分类Dev

如何在.fit()方法中对多个标签(训练)使用一种热编码?

来自分类Dev

如何在 Scala 中创建一种仅基于类型生成 sqlcontext 隐式编码器的方法?

来自分类Dev

如何在Windows中使用H264视频编码器MFT编码位图

Related 相关文章

  1. 1

    如何像一个热编码器一样使用 spark scala 将单个多个分类列拆分为二进制?

  2. 2

    Tensorflow一个热编码器?

  3. 3

    如何在熊猫数据框中将字节中的“一个热编码”列名解码为字符串

  4. 4

    如何从数据帧在Keras流中馈入一个热编码矢量数据帧

  5. 5

    有没有一种方法可以在不使用一个热编码器的情况下训练RNN?

  6. 6

    如何在numpy中向量化一个热编码循环

  7. 7

    如何在 scitkit 模型中拟合一个热编码类

  8. 8

    TypeError:__init __()获得了意外的关键字参数'categorical_features'一个热编码器

  9. 9

    TypeError:__init __()获得了意外的关键字参数'categorical_features'一个热编码器

  10. 10

    如何使用熊猫基于两个分类列的组合进行一次热编码?

  11. 11

    在scikit中使用标签编码器编码数据时发生TypeError学习

  12. 12

    如何在编码器-解码器时间序列模型中将一个点添加为特征?

  13. 13

    如何在Metal中组合使用不同着色器的渲染命令编码器

  14. 14

    从LSTM自动编码器输入分类器数据

  15. 15

    机器学习:如何在具有分类和数字功能的熊猫数据帧上应用一种热编码?

  16. 16

    使用MultiEncoder,我有一个数组encoders [],我想知道编码器接受哪种数据类型。那怎么可能?

  17. 17

    一种热编码返回最后一个分类值的所有0向量

  18. 18

    如何在R中将2个单独的分类变量编码为一个变量?

  19. 19

    如何获得一个句子的热编码?

  20. 20

    将一个热编码列转换为分类标签

  21. 21

    使用一个实例更新weka中的分类器

  22. 22

    为什么ffmpeg用flac编码器编码一个ogg文件?

  23. 23

    如何设计一个共享的加权多输入/输出自动编码器网络?

  24. 24

    如何在ImageDataGenerator中对序列数据进行热编码?

  25. 25

    这是一个热编码吗?

  26. 26

    如何在某一列的一个单元格内拆分项目并实现单热编码?

  27. 27

    如何在.fit()方法中对多个标签(训练)使用一种热编码?

  28. 28

    如何在 Scala 中创建一种仅基于类型生成 sqlcontext 隐式编码器的方法?

  29. 29

    如何在Windows中使用H264视频编码器MFT编码位图

热门标签

归档