複数の値(コンマ区切り)を持つ列を持つデータフレームがあります:
mydf <- structure(list(Age = c(99L, 10L, 40L, 15L),
Info = c("good, bad, sad", "nice, happy, joy", "NULL", "okay, nice, fun, wild, go"),
Target = c("Boy", "Girl", "Boy", "Boy")),
.Names = c("Age", "Info", "Target"),
row.names = c(NA, 4L),
class = "data.frame")
> mydf
Age Info Target
1 99 good, bad, sad Boy
2 10 nice, happy, joy Girl
3 40 NULL Boy
4 15 okay, nice, fun, wild, go Boy
情報列をワンホットエンコードされた列に分割し、ターゲット列のほかに結果を追加したいと思います。次に例を示します。
Age Info Target good bad sad nice ... NULL ..
1 99 good, bad, sad Boy 1 1 1 0 0
2 10 nice, happy, joy Girl 0 0 0 1 0
3 40 NULL Boy 0 0 0 0 1
4 15 okay, nice, fun, wild, go Boy 0 0 0 0 0
Pythonでは、以下のようなことを実行して辞書を取得し、それを使用して列を割り当てることができます。
In [1]: import itertools
In [2]: values = ["good, bad, sad", "nice, happy, joy", "NULL", "okay, nice, fun, wild, go"]
In [3]: terms = list(itertools.chain(*[v.split(", ") for v in values]))
In [4]: dictionary = {v:k for k,v in enumerate(terms)}
In [6]: dictionary
Out[6]:
{'NULL': 6, 'bad': 1,
'fun': 9, 'go': 11, 'good': 0, 'happy': 4,
'joy': 5, 'nice': 8, 'okay': 7, 'sad': 2, 'wild': 10}
これまでのところ、Rでこれを行うことができます
> lapply(mydf["Info"], function(x) { strsplit(x, ", ") } )
$Info
$Info[[1]]
[1] "good" "bad" "sad"
$Info[[2]]
[1] "nice" "happy" "joy"
$Info[[3]]
[1] "NULL"
$Info[[4]]
[1] "okay" "nice" "fun" "wild" "go"
Rで辞書に変換し、One-Hot-Encodingの列に変換する方法がわかりません。
どうすればこれを解決できますか?
1つのオプションはあるmtabulate
からqdapTools
分割後による「情報」欄,
library(qdapTools)
cbind(mydf, mtabulate(strsplit(mydf$Info, ", ")))
#Age Info Target bad fun go good happy joy nice NULL okay sad wild
#1 99 good, bad, sad Boy 1 0 0 1 0 0 0 0 0 1 0
#2 10 nice, happy, joy Girl 0 0 0 0 1 1 1 0 0 0 0
#3 40 NULL Boy 0 0 0 0 0 0 0 1 0 0 0
#4 15 okay, nice, fun, wild, go Boy 0 1 1 0 0 0 1 0 1 0 1
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加