pyspark 샘플링으로 대상 값의 균일 한 분포

debugcn 에 게시 Dev

Chique_Code

데이터를 훈련으로 분할하고 Pyspark로 테스트하려고합니다. 내 대상 열은 "ActionName"입니다. 문제는 내가에 78%할당 된 데이터 1만 가지고 22%있다는 것 0입니다. 1과 0이 고르게 분포되는 샘플 데이터 세트를 만들고 싶습니다. 나는 다음을 시도했다 :

df.groupBy("ActionName").count().show()

+----------+------+
|ActionName| count|
+----------+------+
|         1|566435|
|         0|175905|
+----------+------+

train = df.sampleBy("ActionName", fractions={0: 0.5, 1: 0.5}, seed=700000)

train.groupBy("ActionName").count().show()

+----------+------+
|ActionName| count|
+----------+------+
|         1|283282|
|         0| 88264|
+----------+------+

78 %와 22 %의 똑같은 분포를 가지고 있습니다.

사막 비행사

fractions인수가 대상 데이터 프레임 의 비율을 제어 한다고 생각하는 것 같지만 그렇지 않습니다. 실제로 샘플링해야하는 소스 데이터 프레임의 요소 수를 제어합니다 . 을 사용 fractions={0: 0.5, 1: 0.5}하면 똑같은 비율로 끝나는 것은 놀라운 일이 아닙니다. 실제로 요청한 것은 각 클래스의 샘플 절반을 유지하는 것입니다.

모든 소수 클래스 ( 0) 샘플 을 유지 하고 과반수 클래스 만 다운 샘플링하여 균형 잡힌 데이터 세트로 끝낸다 고 가정하면 다음이 필요합니다.

train = df.sampleBy("ActionName", fractions={0: 1.0, 1: 0.31}, seed=700000)

어디서 0.31 = 175905/566435.

마찬가지로 소수 클래스 샘플의 절반이 포함 된 균형 잡힌 데이터 세트를 얻으려면 다음을 사용해야합니다.

train = df.sampleBy("ActionName", fractions={0: 0.5, 1: 0.155}, seed=700000)

어디서 0.155 = 0.31/2.

당신은 아이디어를 얻습니다 ...

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-05-26

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

pyspark 샘플링으로 대상 값의 균일 한 분포

pyspark 샘플링으로 대상 값의 균일 한 분포

stan / R의 균일 한 분포로 인해 샘플링 오류가 발생합니다.

R을 사용하여 두 개의 정규 분포의 혼합물에서 샘플링 된 일련의 관측치에 대한 로그 우도 계산

Pyspark의 타임 스탬프에 대한 롤링 평균 및 일별 합계

각 샘플 열에 대한 특정 값으로 행 필터링

불연속 값의 균일 한 분포 측정

동일한 그래프에서 둘 이상의 값으로 분포도 만들기

R : 가변 분위수 임계 값 미만의 값에 대한 롤링 평균

샘플의 일반적인 값을 대략적으로

히트 맵 색상을 균일 한 색상 분포로 조정하는 방법은 무엇입니까?

특정 상태 (열 값)의 행에 대한 기간 분포

균일 한 무작위 분포로 연속 및 범주 값을 모두 포함하는 특정 크기의 데이터 프레임을 만드는 방법

기존 분포에서 샘플링하여 결 측값 대치

상관 분포 샘플링을 위해 scipy _norm_pdf에 대한 빠른 대안이 있습니까?

무작위 샘플 (파이썬)에서 대략적으로 균일 한 그리드 만들기

최소 간격으로 점의 무작위 균일 분포

R의 균일 한 플롯 포인트-연구 / HW

R에서 1000 개의 서로 다른 모양 및 스케일 값으로 잘린 감마 분포에서 1000 개의 샘플 포인트 평균을 빠르게 생성

분포도의 평균 및 백분위 수에 대한 데이터 레이블

평균 포인트 주변의 포인트 배열에서 균일 한 스케일링 C ++

균일하지 않은 분포로 임의의 정수 생성

레코드의 균일 한 분포를위한 조건부 정렬

R 플롯 : 균일하지 않은 숫자에 대한 틱 사이의 균일 한 거리

x의 각 값에 대해 y의 조건부 분포에 대한 회귀선 플로팅

새 범위로 다시 매핑 한 후 균일 한 분포 유지

PySpark : 데이터 프레임 내 그룹에 대한 평균 및 평균 값의 개수 검색

주 대각선 값을 제외한 행렬의 최대 값 샘플링

점수 pyspark를 기반으로 다른 열의 각 값에 대해 열의 상위 N 개 값 필터링

균등 분포로 난수 생성 (루프에서 동일한 수 얻기)

MySQL을 사용하여 동일한 테이블의 다른 열 값에 대한 시즌 누계 평균 값으로 열을 만들려고합니다.