Python DataFrame에서 NaN 응답을 0으로 변경하는 위험

debugcn 에 게시 Dev

진 카드

정리할 대규모 설문 조사 데이터 세트 (300 열, 30000 행)가 있고 열이 혼합되어 있습니다. pandas 및 numpy와 함께 Python을 사용하고 있습니다. 파이썬을 사용하는 학습자 바퀴 단계에 많이 있습니다.

일부 열에는 질문에 대한 Y 또는 N 개의 답변이 있습니다 ( "Y"또는 "N"으로 채워짐).
일부는 5 개의 가능한 답이있는 리 커트 척도 질문이었습니다. CSV 파일에서 각 답변 (동의, 반대 등)에는 자체 열이 있습니다. 이것은 예의 경우 1로, 그렇지 않으면 NaN으로 가져 왔습니다.
다른 질문에는 최대 10 개의 가능한 답변 (예 : 연령)이 있으며 이러한 질문은 "a. 0-18"또는 "b. 19-25"등의 한 열에 문자열로 가져 왔습니다. 그것들을 바꾸는 것은 흥미로울 것입니다!

진행하면서 Y / N 답변을 1 또는 0으로 변경합니다. 그러나 likert 척도 열의 경우 동일한 작업을 수행하는 데 위험이있을 수 있다는 점이 우려됩니다. 누구든지 지금은 데이터를 NaN으로 남겨 두는 것이 바람직한 지 여부에 대한 견해가 있습니까? 성별은 동일합니다. 남성용 열과 여성용 열이 따로 있으며 둘 다 예인 경우 1, 아니오 인 경우 NaN으로 채워집니다.

데이터 분석 / 차팅에 Python을 사용하려고합니다 (matplotlib 및 seaborn 가져 오기). 이것은 나에게 새로운 것이므로 지금 내가 변경하는 것이 나중에 의도하지 않은 결과를 초래할 수 있다고 생각합니다!

당신이 줄 수있는 모든 지침을 많이 주시면 감사하겠습니다.

미리 감사드립니다.

닉 T

의미하는 0이 없으면 NA를 값 (편의상 0)으로 채우는 것이 좋습니다. 그것은 모두 귀하의 데이터에 달려 있습니다. 즉, 300 x 30k는 그렇게 크지 않습니다. CSV로 저장하고 IPython Notebook 에서 실험 해보세요 . Pandas는 아마도 1 초 이내에 읽을 수 있으므로 문제가 발생하면 다시로드하세요.

다음은 여러 열로 구성된 질문 세트를 숫자가있는 단일 열로 압축 할 수있는 간단한 코드입니다.

df = pd.DataFrame({
    1: {'agree': 1}, 
    2: {'disagree': 1}, 
    3: {'whatevs': 1}, 
    4: {'whatevs': 1}}).transpose()
df

생성 된 DataFrame

question_sets = {
    'set_1': ['disagree', 'whatevs', 'agree'], # define these lists from 1 to whatever
}

for setname, setcols in question_sets.items():
    # plug the NaNs with 0
    df[setcols].fillna(0)

    # scale each column with 0 or 1 in the question set with an ascending value
    for val, col in enumerate(setcols, start=1):
        df[col] *= val

    # create new column by summing all the question set columns
    df[setname] = df[question_set_columns].sum(axis=1)

    # delete all the old columns
    df.drop(setcols, inplace=True, axis=1) 

df

결과 DataFrame

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-06-2

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

Python DataFrame에서 NaN 응답을 0으로 변경하는 위험

Python DataFrame에서 NaN 응답을 0으로 변경하는 위험

오류 예외 대신 잠재적으로 위험한 요청에 대한 HTML 응답을 보내는 WCF 앱

오류 예외 대신 잠재적으로 위험한 요청에 대한 HTML 응답을 보내는 WCF 앱

PHP에서 NAN을 0으로 변환하는 방법

python aiml에서 img 형식으로 응답을 얻는 방법

Python으로 csv에 API 응답을 저장하는 방법

단일 앱 경로에서 여러 응답을 반환하는 방법 : Flask (Python)

내 PC에 이미 인터레이스 옵션이있는 경우 새로 고침을 60Hz에서 75Hz로 변경하면 위험합니까?

Python에서 입력과 응답을받는 채팅 로봇

위험에 처한 숫자 (생존)에 대해 열을 변경하는 방법

노드가 NaN으로 응답 할 때마다 문자열 값을 유지하는 변수를 console.log ()에 전달할 수 있습니까?

Windows 10에서 응용 프로그램 관리자 권한을 부여하는 것이 위험합니까?

Pandas DataFrame에서 NaN을 이전 값의 일부 변경으로 바꾸는 방법은 무엇입니까?

팬더에서 원하지 않는 문자열을 NaN으로 변경하지 않는 오류

Python으로 Excel에서 열 형식을 변경하는 방법

특정 열에서 양수와 NaN을 1로, 음수를 0으로 변환

Python에서 udp 클라이언트로 127.0.0.1에서 응답을받는 문제

마지막 위치에서 0으로 오름차순으로 목록 목록을 정렬하는 Python

다음 트위스트 SIP Python 코드로 별표 서버에서 응답을받지 못하는 이유는 무엇입니까?

nginx 서버에서 사용자 변경으로 인한 보안 위험

모든 열에서 nan으로 DataFrame 행을 표시하는 방법

ACS는 하위 응용 프로그램에서 SAML 응답을 처리하지 않습니다.

JavaScript에서 배열 API 응답을 json으로 변환하는 방법

python3을 python3.5에서 python3.6으로 변경하는 방법

R : ggplot을 사용하여 위험 히트 맵에서 colorPalette 색상 변경

배열에서 1을 0으로 무작위로 변환하는 방법

Steam API Python으로 JSON 응답을 필터링하는 방법

Python에서 날짜 범위를 만들고 DataFrame으로 변환하는 방법

Python / Pandas : value가 NaN 또는 0 인 경우 동일한 행에서 다음 열의 값으로 채 웁니다.

값 이름을 얻기 위해 Python에서 Alexa json 응답을 구문 분석하는 문제