나는 두 개의 데이터 프레임을 가지고 있는데 하나는 내 데이터에 대한 통계 출력을 가지고 있으며 내가 작업하고있는 유전자는이 데이터 프레임의 클러스터 ID에 의해 참조됩니다. 내가 가지고있는 다른 데이터 프레임에는 클러스터 Id와 수반되는 gene_id가 있습니다.
data.frame1은 관련 통계 데이터가있는 무질서한 클러스터 모음입니다.
X baseMean
cluster_1234 542
cluster_2546 764
cluster_3472 564
data.frame2는 클러스터별로 오름차순으로 정렬되지만 연관된 gene_id는 무작위 순서이지만 다른 데이터 프레임의 다른 관련 데이터와 다시 비교할 수 있습니다.
gene_id cluster_id
gene_69149 cluster_1
gene_23478 cluster_2
gene_92371 cluster_3
내가하고 싶은 것은 data.frame1 $ x를 반복하여 각 클러스터에 대한 관련 유전자 ID가있는 열을 추가하는 것입니다. 출력은 관심있는 유전자와 유전자 ID가 포함 된 새로운 데이터 프레임입니다. 또한 data.frame1에는 900 개의 행이 있지만 data.frame2에는 53,000 개의 행이 있다는 점도 지적해야합니다. 다른 문제는 각 gene_id와 관련된 번호가 각 클러스터 번호와 관련된 번호와 유사하지 않다는 것입니다.
gene_id X baseMean
gene_5463 cluster_1234 542
gene_7934 cluster_2546 764
gene_8346 cluster_3472 564
중요한 클러스터 ID 옆의 새 열에 관련 gene_id를 추가하고 싶습니다.
우리는 사용할 수 있습니다 merge
merge(df1, df2, by.x='X', by.y='cluster_id')
큰 데이터 세트가있는 경우 다른 옵션이 있습니다 inner_join/left_join/full_join
(원하는 출력에 따라 다름).library(dplyr)
library(dplyr)
inner_join(df1, df2, by=c('X'='cluster_id'))
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다