나는이 data.table를 :
groups <- data.table(group = c("A", "B", "C", "D", "E", "F", "G"),
code_1 = c(2,2,2,7,8,NA,5),
code_2 = c(NA,3,NA,3,NA,NA,2),
code_3 = c(4,1,1,4,4,1,8))
group code_1 code_2 code_3
A 2 NA 4
B 2 3 1
C 2 NA 1
D 7 3 4
E 8 NA 4
F NA NA 1
G 5 2 8
내가 달성하고 싶은 것은 각 그룹이 사용 가능한 코드를 기반으로 인접 이웃을 찾는 것입니다. 예 : 그룹 A에는 code_1 (code_1은 모든 그룹에서 2와 같음)으로 인해 바로 이웃 그룹 B, C가 있고 code_3 (모든 그룹에서 code_3은 4와 같음)으로 인해 바로 이웃 그룹 D, E가 있습니다.
내가 시도한 것은 각 코드에 대해 다음과 같이 일치 항목을 기반으로 첫 번째 열 (그룹)을 부분 집합 화하는 것입니다.
groups$code_1_match = list()
for (row in 1:nrow(groups)){
set(groups, i=row, j="code_1_match", list(groups$group[groups$code_1[row] == groups$code_1]))
}
group code_1 code_2 code_3 code_1_match
A 2 NA 4 A,B,C,NA
B 2 3 1 A,B,C,NA
C 2 NA 1 A,B,C,NA
D 7 3 4 D,NA
E 8 NA 4 E,NA
F NA NA 1 NA,NA,NA,NA,NA,NA,...
G 5 2 8 NA,G
이 "종류"는 작동하지만이 작업을 수행하는 데 더 많은 데이터 테이블이 있다고 가정합니다. 나는 시도했다
groups[, code_1_match_2 := list(group[code_1 == groups$code_1])]
그러나 이것은 작동하지 않습니다.
나는 그것을 처리하기 위해 명백한 데이터 테이블 트릭을 놓치고 있습니까?
내 이상적인 경우 결과는 다음과 같습니다 (현재 3 개 열 모두에 대해 내 방법을 사용한 다음 결과를 연결해야 함).
group code_1 code_2 code_3 Immediate neighbors
A 2 NA 4 B,C,D,E
B 2 3 1 A,C,D,F
C 2 NA 1 A,B,F
D 7 3 4 B,A
E 8 NA 4 A,D
F NA NA 1 B,C
G 5 2 8
igraph를 사용하여 2 차 이웃을 가져 오고 숫자 노드를 삭제하고 나머지 노드를 붙여 넣습니다.
library(data.table)
library(igraph)
# reshape wide-to-long
x <- melt(groups, id.vars = "group")[!is.na(value)]
# convert to graph
g <- graph_from_data_frame(x[, .(from = group, to = paste0(variable, "_", value))])
# get 2nd degree neighbours
x1 <- ego(g, 2, nodes = groups$group)
# prettify the result
groups$res <- sapply(seq_along(x1), function(i) toString(intersect(names(x1[[ i ]]),
groups$group[ -i ])))
# group code_1 code_2 code_3 res
# 1: A 2 NA 4 B, C, D, E
# 2: B 2 3 1 A, C, D, F
# 3: C 2 NA 1 A, B, F
# 4: D 7 3 4 B, A, E
# 5: E 8 NA 4 A, D
# 6: F NA NA 1 B, C
# 7: G 5 2 8
더 많은 정보
이것이 igraph 객체로 변환하기 전에 데이터가 어떻게 보이는지입니다. 우리는 값이 2 인 code1이 값이 2 인 code2와 다른지 확인하려고합니다.
x[, .(from = group, to = paste0(variable, "_", value))]
# from to
# 1: A code_1_2
# 2: B code_1_2
# 3: C code_1_2
# 4: D code_1_7
# 5: E code_1_8
# 6: G code_1_5
# 7: B code_2_3
# 8: D code_2_3
# 9: G code_2_2
# 10: A code_3_4
# 11: B code_3_1
# 12: C code_3_1
# 13: D code_3_4
# 14: E code_3_4
# 15: F code_3_1
# 16: G code_3_8
참고 A..G
노드가 항상를 통해 연결되어있다 code_x_y
. 그래서 우리는 2 차를 얻어야하고 2 차 ego(..., order = 2)
이웃을 포함하여 이웃을 제공하고 목록 객체를 반환해야합니다.
이름을 얻으려면 :
lapply(x1, names)
# [[1]]
# [1] "A" "code_1_2" "code_3_4" "B" "C" "D" "E"
#
# [[2]]
# [1] "B" "code_1_2" "code_2_3" "code_3_1" "A" "C" "D" "F"
#
# [[3]]
# [1] "C" "code_1_2" "code_3_1" "A" "B" "F"
#
# [[4]]
# [1] "D" "code_1_7" "code_2_3" "code_3_4" "B" "A" "E"
#
# [[5]]
# [1] "E" "code_1_8" "code_3_4" "A" "D"
#
# [[6]]
# [1] "F" "code_3_1" "B" "C"
#
# [[7]]
# [1] "G" "code_1_5" "code_2_2" "code_3_8"
결과를 예쁘게하기 위해 code_x_y
노드와 원래 노드 (첫 번째 노드) 를 제거해야합니다.
sapply(seq_along(x1), function(i) toString(intersect(names(x1[[ i ]]), groups$group[ -i ])))
#[1] "B, C, D, E" "A, C, D, F" "A, B, F" "B, A, E" "A, D" "B, C" ""
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다