基于数据框中的两列创建新列

debugcn 发表于 Dev

戴维斯

df在个人重复采样的情况下，我具有可复制性。对于每个样本，我跟踪样本的获取顺序和使用的介质（A或B）。

dat <- data.frame(IndID = factor(c(1,1,2,2,2,3,3)),
          Order = c(1,2,1,2,3,1,2),
          Media = factor(c("A", "B", "B","A","B","A", "A")))
dat
  IndID Order Media
1     1     1     A
2     1     2     B
3     2     1     B
4     2     2     A
5     2     3     B
6     3     1     A
7     3     2     A

我要创建一个新列，其中包含“媒体”和一个数字，该数字表示“媒体”每个级别内的采样顺序。换句话说，按IndID和Media分组，我想创建一个新列来对样本进行排序。对于每个人，如果在两个不同的媒体中只有两个样本（如IndID 1），则新值将为“ A1”和“ B1”。如果同一媒体中有两个样本，则新值必须按照采样顺序的顺序分别为“ B1”和“ B2”。

鉴于以上数据，我正在尝试创建以下列

dat$WantThis <- c("A1", "B1","B1", "A1","B2", "A1", "A2")

  IndID Order Media WantThis
1     1     1     A       A1
2     1     2     B       B1
3     2     1     B       B1
4     2     2     A       A1
5     2     3     B       B2
6     3     1     A       A1
7     3     2     A       A2

我一直在尝试使用该dplyr程序包，但无法将应包含在内的点连接为的第二个参数paste。

dat2 <- as.data.frame(dat %>% group_by(IndID, Media) %>% mutate(MediaOrder = paste0(Media, ???? )))

提前致谢。我欢迎任何建议。

艾伦

如果使用分组的行号，它应该可以为您提供所需的信息。

library(dplyr)

dat <- data.frame(IndID = factor(c(1,1,2,2,2,3,3)),
                  Order = c(1,2,1,2,3,1,2),
                  Media = factor(c("A", "B", "B","A","B","A", "A")))

res <- dat %>%
  group_by(IndID, Media) %>%
  mutate(count = row_number(),
         WantThis = paste(Media,count,sep=""))

#Source: local data frame [7 x 5]
#Groups: IndID, Media [5]
#
#   IndID Order  Media count WantThis
#  (fctr) (dbl) (fctr) (int)    (chr)
#1      1     1      A     1       A1
#2      1     2      B     1       B1
#3      2     1      B     1       B1
#4      2     2      A     1       A1
#5      2     3      B     2       B2
#6      3     1      A     1       A1
#7      3     2      A     2       A2

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。