R에서 쌍을 이루는 데이터 세트를 조작하는 방법은 무엇입니까?

debugcn 에 게시 Dev

애비 B

내 데이터는 다음과 같습니다 (간단한 버전).

df <- read.table(text="cohort,med1,med2,med3,meq1,meq2,meq3
a,drugA,drugB,NA,4.3,1.9,NA
b,drugB,drugC,drugA,2.1,2.0,4.5
a,drugC,NA,NA,2.0,NA,NA
a,drugA,drugB,NA,5.5,3.6,NA
b,drugB,drugA,drugC,4.9,4.1,4.1", sep=",", header=TRUE)

## > df
##   cohort  med1  med2  med3 meq1 meq2 meq3
## 1      a drugA drugB  <NA>  4.3  1.9   NA
## 2      b drugB drugC drugA  2.1  2.0  4.5
## 3      a drugC  <NA>  <NA>  2.0   NA   NA
## 4      a drugA drugB  <NA>  5.5  3.6   NA
## 5      b drugB drugA drugC  4.9  4.1  4.1

각 med값은 각 값과 쌍을 이룹니다 meq(예 :의 값 meq1은의 해당 인스턴스에 대한 값임 med1). 어떻게 데이터를 그룹화 할 재구성 수 med에 의해 cohort과의 수를 모두 얻을 수 med및 평균 값을 meq?

예를 들면 :

cohort  med    meq
a       drugA  4.9
a       drugB  2.75
a       drugC  2.0
b       drugA  4.3
b       drugB  4.5
b       drugC  3.05

RyanFrost

그리고 여기에 tidyr방법이 있습니다.

library(dplyr)
library(tidyr)
df <- read.table(text ="
cohort med1   med2   med3   meq1   meq2   meq3
a      drugA  drugB  NA     4.3    1.9    NA
b      drugB  drugC  drugA  2.1    2.0    4.5
a      drugC  NA     NA     2.0    NA     NA
a      drugA  drugB  NA     5.5    3.6    NA
b      drugB  drugA  drugC  4.9    4.1    4.1
", header = TRUE)

df_long <- df %>%
  pivot_longer(cols = starts_with("me"), 
               names_to = c(".value", "m"),
               names_pattern = "(me(?:d|q))(\\d)")

이 첫 번째 단계는 행당 여러 관측치를 그룹화합니다 (각 1, 2 및 3에 대한 med 및 meq).

print(df_long)
#> # A tibble: 15 x 4
#>    cohort m     med     meq
#>    <fct>  <chr> <fct> <dbl>
#>  1 a      1     drugA   4.3
#>  2 a      2     drugB   1.9
#>  3 a      3     <NA>   NA  
#>  4 b      1     drugB   2.1
#>  5 b      2     drugC   2  
#>  6 b      3     drugA   4.5
#>  7 a      1     drugC   2  
#>  8 a      2     <NA>   NA  
#>  9 a      3     <NA>   NA  
#> 10 a      1     drugA   5.5
#> 11 a      2     drugB   3.6
#> 12 a      3     <NA>   NA  
#> 13 b      1     drugB   4.9
#> 14 b      2     drugA   4.1
#> 15 b      3     drugC   4.1

그런 다음 각 코호트에 대한 각 약물의 평균을 취할 수 있습니다.

df_long %>%
  group_by(cohort, med) %>%
  summarize(meq = mean(meq))
#> Warning: Factor `med` contains implicit NA, consider using
#> `forcats::fct_explicit_na`
#> # A tibble: 7 x 3
#> # Groups:   cohort [2]
#>   cohort med     meq
#>   <fct>  <fct> <dbl>
#> 1 a      drugA  4.9 
#> 2 a      drugB  2.75
#> 3 a      drugC  2   
#> 4 a      <NA>  NA   
#> 5 b      drugA  4.3 
#> 6 b      drugB  3.5 
#> 7 b      drugC  3.05

^{reprex 패키지 (v0.3.0)에 의해 2020-04-10에 생성됨}

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-2

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

R에서 쌍을 이루는 데이터 세트를 조작하는 방법은 무엇입니까?

R에서 쌍을 이루는 데이터 세트를 조작하는 방법은 무엇입니까?

이와 같이 쌍을 이루는 데이터 구조를 쌓는 방법은 무엇입니까?

R에서 데이터를 조작하는 방법은 무엇입니까?

루프에서 다른 데이터 세트를 선택하고 참조하는 방법은 무엇입니까?

ggplot의 산점도에서 쌍을 이룬 데이터를 그리는 방법은 무엇입니까?

tensorflow에서 읽을 때 데이터 세트를 필터링하는 방법은 무엇입니까?

Power BI에서 데이터 세트의 데이터 흐름을 수정하는 방법은 무엇입니까?

Python Pandas의 데이터 프레임에서 기존 쌍을 통해서만 루프를 만드는 방법은 무엇입니까?

R에서 루프를 작성하여 열 이름을 기반으로 여러 데이터 하위 집합을 만드는 방법은 무엇입니까?

R에서 두 데이터 세트에 대한 p- 값을 찾는 방법은 무엇입니까?

R에서 열 이름이 다른 두 데이터 세트를 병합하는 방법은 무엇입니까?

R에서 행 및 열 이름을 포함하는 Excel에서 데이터 세트를 만드는 방법은 무엇입니까?

Firebase의 루트에서 모든 항목 (데이터 삭제)을 제거하는 방법은 무엇입니까?

R에서 데이터 프레임을 쌍 수로 바꾸는 방법은 무엇입니까?

R에서 데이터를 조작 (집계)하는 방법은 무엇입니까?

C ++에서 for 루프의 조건을 동적으로 업데이트하는 방법은 무엇입니까?

for 루프 내에서 데이터베이스를 업데이트하는 방법은 무엇입니까?

SQLite 데이터베이스에서 모든 테이블을 읽고 R에 데이터 세트 / 변수로 저장하는 방법은 무엇입니까?

R에서 여러 데이터 세트를 하나로 결합하는 방법은 무엇입니까?

R에서 sqldf를 사용하여 로컬 데이터 프레임을 조작하는 방법은 무엇입니까?

R에서 불균형 데이터 세트를 처리하는 방법은 무엇입니까?

R- 패키지에 대한 데이터 세트를 문서화하는 방법은 무엇입니까?

R의 데이터 세트에서 등 간격 값의 벡터를 만드는 방법은 무엇입니까?

Apache Flink에서 데이터 세트의 시작 위치를 정의하는 방법은 무엇입니까?

Spark Java에서 Excel로 데이터 세트 객체를 작성하는 방법은 무엇입니까?

이것을 데이터 세트에 추가하는 동안 4 년 데이터 세트에서 하루의 최대 온도를 계산하는 방법은 무엇입니까?

데이터 프레임을 날짜별로 서브 세트하고 R에서 여러 작업을 수행하는 방법은 무엇입니까?

json 데이터를 데이터 프레임에 추가하고 R에서 값을 업데이트하는 방법은 무엇입니까?

반복하지 않을 데이터를 while 루프에 알리는 방법은 무엇입니까?

조건을 사용하여 ObservableCollection에서 데이터를 복사하는 방법은 무엇입니까?