그룹화 된 열을 잃지 않고 groupby 변환을 기반으로 NaN을 채우는 방법은 무엇입니까?

debugcn 에 게시 Dev

블레인

키, 몸무게 등이 포함 된 데이터 세트가 있으며 NaN 값을 해당 성별의 평균 값으로 채우려 고합니다.

예시 데이터 세트 :

    gender    height    weight
1     M          5       NaN
2     F          4       NaN
3     F         NaN        40
4     M         NaN        50

df = df.groupby("Gender").transform(lambda x: x.fillna(x.mean()))

현재 출력 :

     height    weight
1       5        50
2       4        40
3       4        40
4       5        50

예상 출력 :

    gender    height    weight
1     M          5        50
2     F          4        40
3     F          4        40
4     M          5        50

불행히도 이것은 나중에 중요한 성별 열을 삭제합니다.

소 포드

채우려는 2 개의 열을 반복 GroupBy.transform하고 '성별'별로 그룹화하여 수행하는 것은 어떻습니까?

for col in ['height','weight']:
    df[col] = df.groupby('gender')[col].transform(lambda x: x.fillna(x.mean()))

print(df)

  gender  height  weight
0      M     5.0    50.0
1      F     4.0    40.0
2      F     4.0    40.0
3      M     5.0    50.0

모든 숫자 열을 채우려면에서 가져와 list동일한 접근 방식을 수행 할 수 있습니다 .

features_to_impute = [
        x for x in df.columns if df[x].dtypes != 'O' and df[x].isnull().mean() > 0
        ]

for col in features_to_impute:
    df[col] = df.groupby('gender')[col].transform(lambda x: x.fillna(x.mean()))

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-7

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

그룹화 된 열을 잃지 않고 groupby 변환을 기반으로 NaN을 채우는 방법은 무엇입니까?

그룹화 된 열을 잃지 않고 groupby 변환을 기반으로 NaN을 채우는 방법은 무엇입니까?

그룹화 된 평균을 기준으로 누락 된 값을 채우는 방법은 무엇입니까?

단락을 잃지 않고 html을 문서로 변환하는 방법은 무엇입니까?

범주화 된 기간의 datetime 그룹을 새 팬더 열로 반환하는 방법은 무엇입니까?

반올림하지 않고 문자열을 통화로 변환하는 방법은 무엇입니까?

기본 키를 통해 그룹화하고 그룹의 나머지 항목을 모두 그룹화 된 값 목록으로 수집하여 배열의 모든 데이터 항목을 재구성하는 방법은 무엇입니까?

그룹화 된 열에 색상을 지정하는 방법은 무엇입니까? (jQuery DataTables 행 그룹화)

SQL : 식별로 그룹화되지 않은 열을 표시하는 방법은 무엇입니까?

열 순서를 잃지 않고 헤더가있는 행렬 (Array {Any, 2})을 줄리아에서 DataFrame으로 변환하는 방법은 무엇입니까?

벡터화 된 코드로 그라디언트로 numpy 배열을 채우는 방법은 무엇입니까?

그룹화 된 항목의 배열을 반환하는 방법은 무엇입니까?

누락 된 NAN을 채우는 방법은 무엇입니까?

SQL에서 개수를 반환 할 때 개수가 존재하지 않는 그룹화 된 항목에 값을 포함하는 방법은 무엇입니까?

perens를 잃지 않고 perens로 문자열을 분리하는 방법은 무엇입니까? 루비

그룹화 된 항목을 반복하고 비교하는 방법은 무엇입니까?

다른 열로 그룹화 할 때 특정 열에서 고유하지 않은 값이있는 행을 선택하는 방법은 무엇입니까?

팬더로 그룹화 된 로그에서 시계열을 그리는 방법은 무엇입니까?

mysql에서 새 그룹으로 그룹화 된 행을 추가하는 방법은 무엇입니까?

이전에 동적으로 추가 된 h : inputText 값을 잃지 않고 jsf에서 h : inputText를 동적으로 추가하는 방법은 무엇입니까?

다른 열의 간격을 기반으로 Pandas의 다른 열을 기반으로 누락 된 값을 채우는 방법은 무엇입니까?

Pandas의 여러 열을 기반으로 그룹화하는 방법은 무엇입니까?

중복 값을 단일 값으로 그룹화하고 R에서 해당 열 값과 관련된 값을 가져 오는 방법은 무엇입니까?

문자열로 제공된 열로 data.table을 그룹화하는 방법은 무엇입니까?

동일한 값을 변경하지 않고 다른 이름으로 문자열 배열 항목을 채우는 방법은 무엇입니까?

계산 된 열을 여러 열로 그룹화하는 방법은 무엇입니까?

mySQL에서 열로 그룹화 할 때 마지막으로 삽입 된 행을 얻는 방법은 무엇입니까?

그룹화되지 않은 열에 최신 삽입 값을 얻는 방법은 무엇입니까?

(Python) 순서별로 정렬하지 않고 첫 번째 열로 행을 그룹화하는 방법은 무엇입니까?

행을 축소하여 열당 행 수가 고르지 않은 그룹의 NA를 채우는 방법은 무엇입니까?

pyspark에 집계하지 않고 pandas 그룹을 변환하는 방법은 무엇입니까?