我正在阅读熊猫文档以了解 pandas.get_dummies
>>> import pandas as pd
>>> l = list('abca')
>>> print l
['a', 'b', 'c', 'a']
>>> s = pd.Series(l)
>>> print s
0 a
1 b
2 c
3 a
我创建了一个如上所示的系列。
当我在这个系列上调用 get_dummies 时,输出如下
>>> pd.get_dummies(s)
a b c
0 1 0 0
1 0 1 0
2 0 0 1
3 1 0 0
什么意思我不明白。
我们可以说条目的新值如下吗?
a --> 100
b --> 010
c --> 001
a --> 100
另外,它们是十进制还是二进制?
dummy
变量是二元特征。就像一个单列,说明每一行是否是某物。当我们有一个包含多个值的现有列时,超过 1。我们可以将这些值拆分为每个唯一值的单个列。每个新列要么表示该行具有该唯一值,要么表示该行没有该唯一值为零。
由于 的每一行s
只有一个值,因此每行 0 和 1 在列标题下只有一个,即对应行的值s
a b c
0 1 0 0 # 1 is under `a` which was the value in `s` for this row.
1 0 1 0
2 0 0 1
3 1 0 0
换句话说,将新a
列视为告诉您a
s 在 中的位置s
。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句