수백만 개의 행이있는 데이터 프레임이 있습니다. 모델을 만들기 위해이 데이터 세트에서 임의 샘플을 가져 와서 dataset.sample(int(len(dataset)/5))
개체 축에서 항목의 임의 샘플을 반환했습니다. 이제 표본이 모집단에서 통계적 유의성을 잃지 않는지, 즉 표본의 각 기능 (열)에 대한 확률 분포가 전체 데이터 세트 (모집단)에 대해 동일한 확률 분포를 갖는지 확인하고 싶습니다. 나는 수치 적 특징과 범주 적 특징을 가지고 있습니다. 기능이 Python에서 동일한 확률 분포를 갖는지 어떻게 확인할 수 있습니까?
연속 변수의 경우 Kolmogorov-Smirnov 통계를 사용할 수 있습니다. 두 개의 표본이 동일한 분포에서 추출되었는지 테스트합니다.
사용 scipy
:
scipy.stats.ks_2samp(data1, data2, alternative='two-sided', mode='auto')
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ks_2samp.html
또는 이미 분포를 알고있는 경우 주어진 분포에 대해 데이터를 테스트하는 KS-test를 사용할 수 있습니다.
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kstest.html#scipy.stats.kstest
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다