샘플이 Python의 모집단과 동일한 확률 분포를 가지고 있는지 확인하는 방법은 무엇입니까?

아니 르반 사하

수백만 개의 행이있는 데이터 프레임이 있습니다. 모델을 만들기 위해이 데이터 세트에서 임의 샘플을 가져 와서 dataset.sample(int(len(dataset)/5))개체 축에서 항목의 임의 샘플을 반환했습니다. 이제 표본이 모집단에서 통계적 유의성을 잃지 않는지, 즉 표본의 각 기능 (열)에 대한 확률 분포가 전체 데이터 세트 (모집단)에 대해 동일한 확률 분포를 갖는지 확인하고 싶습니다. 나는 수치 적 특징과 범주 적 특징을 가지고 있습니다. 기능이 Python에서 동일한 확률 분포를 갖는지 어떻게 확인할 수 있습니까?

바비 클랜

연속 변수의 경우 Kolmogorov-Smirnov 통계를 사용할 수 있습니다. 두 개의 표본이 동일한 분포에서 추출되었는지 테스트합니다.

사용 scipy:

scipy.stats.ks_2samp(data1, data2, alternative='two-sided', mode='auto')

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ks_2samp.html

또는 이미 분포를 알고있는 경우 주어진 분포에 대해 데이터를 테스트하는 KS-test를 사용할 수 있습니다.

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kstest.html#scipy.stats.kstest

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

Related 관련 기사

뜨겁다태그

보관