선형 회귀 분석을하고 싶습니다. 여러 기능이 있습니다. 일부 기능에는 데이터의 일부 항목에 대해 할당되지 않은 (null) 값이 있습니다. 서수 특성 (예 : '연도'또는 '방 수')의 경우 평균 값 대치를 사용하고 모든 null을 데이터의 평균 값으로 바꿀 수 있습니다. 그러나 범주 형 기능 (예 : 색상 또는 구역)으로 무엇을해야합니까? 더 명확하게하기 위해 예를 제공합니다.
범주 형 유형에는 몇 가지 기능이 있습니다.
Color, material, security, type, district
너무 복잡한 대치 방법없이 범주 형 기능에서 null 값을 대치하는 방법은 무엇입니까? "Null"자체를 별도의 데이터 변형으로 유지하라는 조언을 받았습니다. 예를 들어 'District'열에서 "Null"은 새로운 'district'가됩니다. 모든 종류의 범주 적 특징에 대해 그러한 단순한 대치를 사용하는 것이 합리적입니까? 아니면 다소 간단하고 더 나은 대치 방법이 존재할 수 있습니까?
예, 범주 형 변수의 새 수준으로 NULL을 사용할 수 있습니다. 범주 형 변수에 대한 간단한 대치 방법 만 필요한 경우 해당 변수의 가장 빈번한 수준 (값) 또는이 데이터 집합에 적합한 몇 가지 간단한 규칙으로 대치 할 수도 있습니다.
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다