다음과 같이 University 열이 포함 된 두 개의 데이터 세트가 있습니다.
University | Expenditures
Abilene Christian University | 7041
Adelphi University | 10527
Albertson College | 9727
Boston University | 1234
etc.
University | Power_Rating
Abilene Christian | 0.5064
Air Force | 0.6543
Alabama | 0.7391
Boston | 0.324
etc.
두 데이터 프레임을 결합하여 University, Power_Rating 및 Expenditures 열로 모두 구성된 전체 데이터 프레임을 만들려고합니다.
예를 들어 최종 데이터 프레임에는 Abilene Christian University와 Boston이 있지만 서로 일치하지 않는 행은 포함되지 않습니다.
# Loading necessary libraries
library("dplyr")
library("tidyr")
library("ggplot2")
# Reading and setting the relevant datasets
college_basketball_df <- read.csv("cbb19.csv", stringsAsFactors = FALSE)
us_colleges_df <- read.csv("College.csv", stringsAsFactors = FALSE)
# Selecting relevant columns in the dataframes ()
us_colleges_df <- us_colleges_df %>%
select(X, Expend) %>%
rename(University = X, Expenditures = Expend)
college_basketball_df <- college_basketball_df %>%
select(TEAM, BARTHAG) %>%
rename(University = TEAM, Power_Rating = BARTHAG)
# Arrange both datasets so that they be combined/joined together
us_colleges_df <- arrange(us_colleges_df, University)
college_basketball_df <- arrange(college_basketball_df, University)
View(us_colleges_df)
View(college_basketball_df)
combined_df <- left_join(us_colleges_df, college_basketball_df, by="University")
내 현재 코드는 데이터 프레임 사이의 행에서 정확한 일치를 찾으려고 시도하는 left_join을 사용합니다 (일치하는 행이 없기 때문에 전체 power_rating 열이 NA가 됨). 첫 번째로 조인하는 방법이 있는지 알고 싶습니다. 대학 칼럼에있는 단어?
University
열 에서 한 단어를 추출한 다음 조인 할 수 있습니다.
library(dplyr)
df1 %>% mutate(name = stringr::word(University)) %>%
left_join(df2 %>% mutate(name = stringr::word(University)), by = "name")
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다