pyspark 샘플링으로 대상 값의 균일 한 분포

Chique_Code

데이터를 훈련으로 분할하고 Pyspark로 테스트하려고합니다. 내 대상 열은 "ActionName"입니다. 문제는 내가에 78%할당 된 데이터 1만 가지고 22%있다는 것 0입니다. 1과 0이 고르게 분포되는 샘플 데이터 세트를 만들고 싶습니다. 나는 다음을 시도했다 :

df.groupBy("ActionName").count().show()

+----------+------+
|ActionName| count|
+----------+------+
|         1|566435|
|         0|175905|
+----------+------+

train = df.sampleBy("ActionName", fractions={0: 0.5, 1: 0.5}, seed=700000)

train.groupBy("ActionName").count().show()

+----------+------+
|ActionName| count|
+----------+------+
|         1|283282|
|         0| 88264|
+----------+------+

78 %와 22 %의 똑같은 분포를 가지고 있습니다.

사막 비행사

fractions인수가 대상 데이터 프레임 의 비율을 제어 한다고 생각하는 것 같지만 그렇지 않습니다. 실제로 샘플링해야하는 소스 데이터 프레임의 요소 수를 제어합니다 . 을 사용 fractions={0: 0.5, 1: 0.5}하면 똑같은 비율로 끝나는 것은 놀라운 일이 아닙니다. 실제로 요청한 것은 각 클래스의 샘플 절반을 유지하는 것입니다.

모든 소수 클래스 ( 0) 샘플 을 유지 하고 과반수 클래스 만 다운 샘플링하여 균형 잡힌 데이터 세트로 끝낸다 고 가정하면 다음이 필요합니다.

train = df.sampleBy("ActionName", fractions={0: 1.0, 1: 0.31}, seed=700000)

어디서 0.31 = 175905/566435.

마찬가지로 소수 클래스 샘플의 절반이 포함 된 균형 잡힌 데이터 세트를 얻으려면 다음을 사용해야합니다.

train = df.sampleBy("ActionName", fractions={0: 0.5, 1: 0.155}, seed=700000)

어디서 0.155 = 0.31/2.

당신은 아이디어를 얻습니다 ...

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

stan / R의 균일 한 분포로 인해 샘플링 오류가 발생합니다.

분류에서Dev

R을 사용하여 두 개의 정규 분포의 혼합물에서 샘플링 된 일련의 관측치에 대한 로그 우도 계산

분류에서Dev

Pyspark의 타임 스탬프에 대한 롤링 평균 및 일별 합계

분류에서Dev

각 샘플 열에 대한 특정 값으로 행 필터링

분류에서Dev

불연속 값의 균일 한 분포 측정

분류에서Dev

동일한 그래프에서 둘 이상의 값으로 분포도 만들기

분류에서Dev

R : 가변 분위수 임계 값 미만의 값에 대한 롤링 평균

분류에서Dev

샘플의 일반적인 값을 대략적으로

분류에서Dev

히트 맵 색상을 균일 한 색상 분포로 조정하는 방법은 무엇입니까?

분류에서Dev

특정 상태 (열 값)의 행에 대한 기간 분포

분류에서Dev

균일 한 무작위 분포로 연속 및 범주 값을 모두 포함하는 특정 크기의 데이터 프레임을 만드는 방법

분류에서Dev

기존 분포에서 샘플링하여 결 측값 대치

분류에서Dev

상관 분포 샘플링을 위해 scipy _norm_pdf에 대한 빠른 대안이 있습니까?

분류에서Dev

무작위 샘플 (파이썬)에서 대략적으로 균일 한 그리드 만들기

분류에서Dev

최소 간격으로 점의 무작위 균일 분포

분류에서Dev

R의 균일 한 플롯 포인트-연구 / HW

분류에서Dev

R에서 1000 개의 서로 다른 모양 및 스케일 값으로 잘린 감마 분포에서 1000 개의 샘플 포인트 평균을 빠르게 생성

분류에서Dev

분포도의 평균 및 백분위 수에 대한 데이터 레이블

분류에서Dev

평균 포인트 주변의 포인트 배열에서 균일 한 스케일링 C ++

분류에서Dev

균일하지 않은 분포로 임의의 정수 생성

분류에서Dev

레코드의 균일 한 분포를위한 조건부 정렬

분류에서Dev

R 플롯 : 균일하지 않은 숫자에 대한 틱 사이의 균일 한 거리

분류에서Dev

x의 각 값에 대해 y의 조건부 분포에 대한 회귀선 플로팅

분류에서Dev

새 범위로 다시 매핑 한 후 균일 한 분포 유지

분류에서Dev

PySpark : 데이터 프레임 내 그룹에 대한 평균 및 평균 값의 개수 검색

분류에서Dev

주 대각선 값을 제외한 행렬의 최대 값 샘플링

분류에서Dev

점수 pyspark를 기반으로 다른 열의 각 값에 대해 열의 상위 N 개 값 필터링

분류에서Dev

균등 분포로 난수 생성 (루프에서 동일한 수 얻기)

분류에서Dev

MySQL을 사용하여 동일한 테이블의 다른 열 값에 대한 시즌 누계 평균 값으로 열을 만들려고합니다.

Related 관련 기사

  1. 1

    stan / R의 균일 한 분포로 인해 샘플링 오류가 발생합니다.

  2. 2

    R을 사용하여 두 개의 정규 분포의 혼합물에서 샘플링 된 일련의 관측치에 대한 로그 우도 계산

  3. 3

    Pyspark의 타임 스탬프에 대한 롤링 평균 및 일별 합계

  4. 4

    각 샘플 열에 대한 특정 값으로 행 필터링

  5. 5

    불연속 값의 균일 한 분포 측정

  6. 6

    동일한 그래프에서 둘 이상의 값으로 분포도 만들기

  7. 7

    R : 가변 분위수 임계 값 미만의 값에 대한 롤링 평균

  8. 8

    샘플의 일반적인 값을 대략적으로

  9. 9

    히트 맵 색상을 균일 한 색상 분포로 조정하는 방법은 무엇입니까?

  10. 10

    특정 상태 (열 값)의 행에 대한 기간 분포

  11. 11

    균일 한 무작위 분포로 연속 및 범주 값을 모두 포함하는 특정 크기의 데이터 프레임을 만드는 방법

  12. 12

    기존 분포에서 샘플링하여 결 측값 대치

  13. 13

    상관 분포 샘플링을 위해 scipy _norm_pdf에 대한 빠른 대안이 있습니까?

  14. 14

    무작위 샘플 (파이썬)에서 대략적으로 균일 한 그리드 만들기

  15. 15

    최소 간격으로 점의 무작위 균일 분포

  16. 16

    R의 균일 한 플롯 포인트-연구 / HW

  17. 17

    R에서 1000 개의 서로 다른 모양 및 스케일 값으로 잘린 감마 분포에서 1000 개의 샘플 포인트 평균을 빠르게 생성

  18. 18

    분포도의 평균 및 백분위 수에 대한 데이터 레이블

  19. 19

    평균 포인트 주변의 포인트 배열에서 균일 한 스케일링 C ++

  20. 20

    균일하지 않은 분포로 임의의 정수 생성

  21. 21

    레코드의 균일 한 분포를위한 조건부 정렬

  22. 22

    R 플롯 : 균일하지 않은 숫자에 대한 틱 사이의 균일 한 거리

  23. 23

    x의 각 값에 대해 y의 조건부 분포에 대한 회귀선 플로팅

  24. 24

    새 범위로 다시 매핑 한 후 균일 한 분포 유지

  25. 25

    PySpark : 데이터 프레임 내 그룹에 대한 평균 및 평균 값의 개수 검색

  26. 26

    주 대각선 값을 제외한 행렬의 최대 값 샘플링

  27. 27

    점수 pyspark를 기반으로 다른 열의 각 값에 대해 열의 상위 N 개 값 필터링

  28. 28

    균등 분포로 난수 생성 (루프에서 동일한 수 얻기)

  29. 29

    MySQL을 사용하여 동일한 테이블의 다른 열 값에 대한 시즌 누계 평균 값으로 열을 만들려고합니다.

뜨겁다태그

보관