R:子集上的Data.table按值排除

拉斯穆斯

使用data.tablein R,我试图对不包括选定元素的子集进行操作我正在使用by运算符,但是我不知道这是否是正确的方法。

这是一个例子。例如,Deltain的值IAH:SNA是(3 + 3)/ 2,这是一旦排除Stopsin的平均值IAH:SNADelta

library(data.table)
s1 <- "Market   Carrier Stops
IAH:SNA     Delta     1
IAH:SNA     Delta     1
IAH:SNA Southwest     3
IAH:SNA Southwest     3
MSP:CLE Southwest     2
MSP:CLE Southwest     2
MSP:CLE  American     2
MSP:CLE   JetBlue     1"

d <- data.table(read.table(textConnection(s1), header=TRUE))

setkey(d, Carrier, Market)

f <- function(x, y){
         subset(d, !(Carrier %in% x) & Market == y, Stops)[, mean(Stops)]}

d[, s := f(.BY[[1]], .BY[[2]]), by=list(Carrier, Market)]

##     Market   Carrier Stops     s
## 1: MSP:CLE  American     2  1.666667
## 2: IAH:SNA     Delta     1  3.000000
## 3: IAH:SNA     Delta     1  3.000000
## 5: IAH:SNA Southwest     3  1.000000
## 6: IAH:SNA Southwest     3  1.000000
## 7: MSP:CLE Southwest     2  1.500000
## 8: MSP:CLE Southwest     2  1.500000

上面的解决方案在大型数据集(本质上是上的效果非常mapply,但是我不确定如何以类似快速data.table的方式进行操作。

也许一个人可以(动态地)产生一个能做到这一点的因素?我只是不确定如何。

有办法改善吗?

编辑:仅此而已,这是一种获取上述内容的较大版本的方法

library(data.table)
dl.dta <- function(...){
      ## input years ..
      years <- gsub("\\.", "_", c(...))
      baseurl <- "http://www.transtats.bts.gov/Download/"
      names <- paste("Origin_and_Destination_Survey_DB1BMarket", years, sep="_")
      info <- t(sapply(names, function(x) file.exists(paste(x, c("zip", "csv"), sep="."))))
      to.download <- paste(baseurl, names, ".zip", sep="")[!apply(info, 1, any)]
      if (length(to.download) > 0){
          message("starting download...")
          sapply(to.download,
                 function(x) download.file(x, rev(strsplit(x, "/")[[1]])[1]))}

      to.unzip <- paste(names,  "zip", sep=".")[!info[, 2]]
      if (length(to.unzip > 0)){
          message("starting to unzip...")
          sapply(to.unzip, unzip)}
      paste(names, "csv", sep=".")}

countWords.split <- function(x, s=":"){
    ## Faster on my machine than grep for some reanon
    sapply(strsplit(as.character(x), s), length)}

countWords.grep <- function(x){
    sapply(gregexpr("\\W+", x), length)+1}

fname <- dl.dta(2013.1)
cols <- rep("NULL", 41)
## Columns to keep: 9 is Origin, 18 is Dest, 24 is groups of airports in travel
## 30 is RPcarrier (reporting carrier).  
## For more columns: 35 is market fare and 36 is distance.
cols[9] <- cols[18] <- cols[24] <- cols[30] <- NA
d <- data.table(read.csv(file=fname,  colClasses=cols))
d[, Market := paste(Origin, Dest, sep=":")]
## should probably
d[, Stops := -2 + countWords.split(AirportGroup)]
d[, Carrier := RPCarrier]
d[, c("RPCarrier", "Origin", "Dest", "AirportGroup") := NULL]
埃迪

@Roland的答案适用于某些功能(最好是在某些时候使用),但通常不会。不幸的是,您不能像执行任务那样将拆分应用合并策略应用于数据,但是如果您将数据放大,则可以。让我们从一个简单的例子开始:

dt = data.table(a = c(1,1,2,2,3,3), b = c(1:6), key = 'a')

# now let's extend this table the following way
# take the unique a's and construct all the combinations excluding one element
combinations = dt[, combn(unique(a), 2)]

# now combine this into a data.table with the excluded element as the index
# and merge it back into the original data.table
extension = rbindlist(apply(combinations, 2,
                  function(x) data.table(a = x, index = setdiff(c(1,2,3), x))))
setkey(extension, a)

dt.extended = extension[dt, allow.cartesian = TRUE]
dt.extended[order(index)]
#    a index b
# 1: 2     1 3
# 2: 2     1 4
# 3: 3     1 5
# 4: 3     1 6
# 5: 1     2 1
# 6: 1     2 2
# 7: 3     2 5
# 8: 3     2 6
# 9: 1     3 1
#10: 1     3 2
#11: 2     3 3
#12: 2     3 4

# Now we have everything we need:
dt.extended[, mean(b), by = list(a = index)]
#   a  V1
#1: 3 2.5
#2: 2 3.5
#3: 1 4.5

回到原始数据(并做一些稍微不同的操作,以简化表达式):

extension = d[, {Carrier.uniq = unique(Carrier);
                 .SD[, rbindlist(combn(Carrier.uniq, length(Carrier.uniq)-1,
                          function(x) data.table(Carrier = x,
                                   index = setdiff(Carrier.uniq, x)),
                          simplify = FALSE))]}, by = Market]
setkey(extension, Market, Carrier)

extension[d, allow.cartesian = TRUE][, mean(Stops), by = list(Market, Carrier = index)]
#    Market   Carrier       V1
#1: IAH:SNA Southwest 1.000000
#2: IAH:SNA     Delta 3.000000
#3: MSP:CLE   JetBlue 2.000000
#4: MSP:CLE Southwest 1.500000
#5: MSP:CLE  American 1.666667

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

R / data.table()在另一个data.table的命名子集上合并

来自分类Dev

在data.table列的子集上使用`any()`

来自分类Dev

R data.table循环子集按因子进行lm()

来自分类Dev

总结data.table-在R中按日期创建多个列子集

来自分类Dev

R data.table循环子集按因子进行lm()

来自分类Dev

R个子集data.frame按组列以最大化行值

来自分类Dev

选择data.table R中的列子集

来自分类Dev

R:子集设置期间丢失数据(data.table)

来自分类Dev

在R中使用合并定义data.table的子集

来自分类Dev

子集data.table由R中的日期范围设置

来自分类Dev

在多个条件下的R data.table子集。

来自分类Dev

R中data.table的程序化子集

来自分类Dev

data.table R中的子集ID和日期

来自分类Dev

子集由空行分隔的R data.table

来自分类Dev

R中data.table中的快速子集

来自分类Dev

r中的data.table:使用列索引的子集

来自分类Dev

按位排除值

来自分类Dev

按位排除值

来自分类Dev

按国家划分data.frame,并在每个子集上创建线性回归模型

来自分类Dev

R:按名称的子集向量

来自分类Dev

在data.table中按组填写缺少的值

来自分类Dev

按行合并逗号分隔的值在data.table中

来自分类Dev

按列值复制data.table中的行

来自分类Dev

按行值计算新的data.table列

来自分类Dev

如何在大数据上快速从data.table子集中多行

来自分类Dev

如何在大数据上快速从data.table子集中多行

来自分类Dev

在一行中按索引和名称将R data.frame子集

来自分类Dev

在R中的data.table中按分组,仅保留列中的非NA值

来自分类Dev

在R中为data.table按组查找最大值的索引