複数の行と列を持つ大きなデータフレームがあり、特定の列の値を変更したいと思います。
データフレームは次のようになります。
df1=data.frame(LOCAT=c(1,2,3,4,5,6,7,8,9,10),START=c(120,345,765,1045,1347,1879,2010,2130,2400,2560),END=c(150,390,802,1120,1436,1935,2070,2207,2476,2643),CODE1=c(1,1,0,1,0,0,-1,-1,0,-1))
> df1
LOCAT START END CODE1
1 1 120 150 1
2 2 345 390 1
3 3 765 802 0
4 4 1045 1120 1
5 5 1347 1436 0
6 6 1879 1935 0
7 7 2010 2070 -1
8 8 2130 2207 -1
9 9 2400 2476 0
10 10 2560 2643 -1
連続する長さが1であるCODE1列のすべての「0」を直前の番号にします。つまり、i = 0&i + 1!= 0&i-1!= 0の場合、i = i-1です。
私はいくつかの式を試しましたが、それらはすべて非常に時間がかかります。これは私が試したものです:
fun = function (a)
{
for (i in 2:(length(row.names(a))-1))
{
a[a[i,4]==0 & !a[i+1,4]==0 & !a[i-1,4]==0,] <- a[i-1,4]
}
return(a)
}
成功しませんでした。また、rle関数を使用して、データフレームから長さ0の0を抽出することも考えましたが、その方法がわかりません。rleをデータフレームに適用すると、これは私が返したものの短いバージョンです。
> table(rle1)
values
lengths -1 -2 0 1 2
1 20 1 278 5 0
2 25 18 5 15 2
3 24 5 4 14 0
4 20 4 2 5 0
5 15 4 0 10 1
6 17 1 1 3 0
7 13 1 0 5 0
8 12 1 0 6 0
9 8 0 0 7 0
10 3 1 1 4 0
基本的に、長さが1の278 "0"は消えて、別の番号(-1、-2、1、または2)になるはずです。
この例は次のようになります。
> df2
LOCAT START END CODE1
1 1 120 150 1
2 2 345 390 1
3 3 765 802 1
4 4 1045 1120 1
5 5 1347 1436 0
6 6 1879 1935 0
7 7 2010 2070 -1
8 8 2130 2207 -1
9 9 2400 2476 -1
10 10 2560 2643 -1
私は十分に具体的であり、誰もが私を助けることができることを願っています。
前もって感謝します。
これは、高速である可能性が高い別のアプローチです。各行が何をしているのかを示すコメントを追加しました。
within(df1, {
# Where are the zeroes
x <- which(CODE1 == 0)
# Which of these don't have 0 in the previous or subsequent position
x <- x[CODE1[x-1] != 0 & CODE1[x+1] != 0]
# Replace CODE1 at this position with the value from the previous position
CODE1[x] <- CODE1[x-1]
# Remove the "x" value we created earlier
rm(x)
})
# LOCAT START END CODE1
# 1 1 120 150 1
# 2 2 345 390 1
# 3 3 765 802 1
# 4 4 1045 1120 1
# 5 5 1347 1436 0
# 6 6 1879 1935 0
# 7 7 2010 2070 -1
# 8 8 2130 2207 -1
# 9 9 2400 2476 -1
# 10 10 2560 2643 -1
サンプルのはるかに大きなバージョンを作成した後のベンチマークを次に示しますdata.frame
。
df2 <- do.call(rbind, replicate(10000, df1, simplify=FALSE))
fun <- function (a) {
for (i in 2:(nrow(a)-1)) {
if(a[i,4]==0 & !a[i+1,4]==0 & !a[i-1,4]==0) {
a[i,4] <- a[i-1,4]
}
}
return(a)
}
system.time(fun(df2))
# user system elapsed
# 354.448 0.322 358.397
^^痛い。欠伸。行って、それと一緒にコーヒーを飲む時間がありました。
fun1 <- function() {
within(df2, {
x <- which(CODE1 == 0)
x <- x[CODE1[x-1] != 0 & CODE1[x+1] != 0]
CODE1[x] <- CODE1[x+1]
rm(x)
})
}
fun2 <- function() {
code_1_behind <- c(0, df2$CODE1[-nrow(df2)])
code_1_ahead <- c(df2$CODE1[-1], 0)
df2$CODE1 <- ifelse(code_1_behind != 0 & code_1_ahead != 0,
code_1_behind, df2$CODE1)
df2
}
library(microbenchmark)
microbenchmark(fun1(), fun2())
# Unit: milliseconds
# expr min lq median uq max neval
# fun1() 16.78632 20.10185 74.80807 77.80418 128.7349 100
# fun2() 59.36418 61.18353 114.74406 118.16778 167.3283 100
^^非常に近い。fun2()
正しくないようですが、(回答の下のコメントに基づいて)あなたはそれを認識していて、それを修正することができたようです。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加