更改Paste0 Min Max以创建新的id变量

debugcn 发表于 Dev

瑞奇

我需要创建一个id，用于将contact_id和Relationship_id的组合和位置相同的地方定义为一个common Household_id。

样本数据

account_id <- c(1,1,1,1)
contact_id <- c(1234,2345,3456,4567)
relationship_id <- c(2345,1234,NA,"")
ownership_percent <- c(26,22,40,12)
score <- c(500,300,700,600)
testdata <- data.frame(account_id,contact_id,relationship_id,ownership_percent,score)

一直在使用mutate，paste0，min，max，group_indices的组合-找不到正确的组合，被NA绊倒，并订购了新的family_id

方法1

  library(dplyr)
    testdata %>%
      mutate(col1 = pmin(contact_id, relationship_id), 
             col2 = pmax(contact_id, relationship_id),
             household_id = paste0(col1,col2)) %>%

方法2

 testdata %>%
    mutate(household_id = sort(paste0(c(contact_id, relationship_id))), collapse = "")

错误：列的household_id长度必须为4（行数）或1，而不是8

预期结果

瑞奇

library(dplyr)
# replace missing or NA values with 1
testdata$relationship_id <- type.convert(testdata$relationship_id)
testdata$relationship_id[relationship_id == ""] <- 1
testdata$relationship_id[is.na(testdata$relationship_id)] <- 1

# Create household_id
testdata %>%
  mutate(group = paste0(pmin(contact_id, relationship_id), pmax(contact_id, relationship_id)), 
         household_id = match(group, unique(group)))

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。