Scikit-Learn에서 훈련 및 테스트 데이터를 계층화하는 방법은 무엇입니까?

사라 스

Iris Dataset (Kagle에서 다운로드)에 대한 분류 알고리즘을 구현하려고합니다. 종 열에서 클래스 (Iris-setosa, Iris-versicolor, Iris-virginica)는 정렬 된 순서로되어 있습니다. Scikit-Learn을 사용하여 기차 및 테스트 데이터를 어떻게 계층화 할 수 있습니까?

Metalrt

0.3 테스트 비율로 데이터를 섞고 분할하려면 다음을 사용할 수 있습니다.

sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, shuffle=True)

여기서 X는 데이터, y는 해당 레이블, test_size 는 테스트를 위해 유지해야하는 데이터의 백분율, shuffle = True 는 분할하기 전에 데이터를 섞습니다.

데이터가 열에 따라 균등하게 분할되도록하려면 stratify 매개 변수에 제공 할 수 있습니다 .

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, 
                                                    shuffle=True, 
                                stratify = X['YOUR_COLUMN_LABEL'])

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

scikit-learn을 사용하여 매우 큰 데이터 세트를 훈련 / 업 스케일하는 방법은 무엇입니까?

분류에서Dev

scikit-learn의 TransformedTargetRegressor 파이프 라인에서 훈련 된 추정기의 속성에 액세스하는 방법은 무엇입니까?

분류에서Dev

훈련 데이터 세트에 대한 선형 회귀 결과를 테스트 데이터 세트에 적용하는 방법은 무엇입니까?

분류에서Dev

다른 데이터 세트 인 훈련 및 테스트로 GridSearchCV를 수행하는 방법은 무엇입니까?

분류에서Dev

R Studio에서 훈련 된 knn 모델의 정확도를 테스트하는 방법은 무엇입니까?

분류에서Dev

교차 검증에서 Keras scikit-learn 래퍼의 훈련 및 검증 손실을 얻는 방법은 무엇입니까?

분류에서Dev

기계 학습 및 예측을위한 좋은 훈련 데이터 세트를 구축하는 방법은 무엇입니까?

분류에서Dev

Python-Scikit. SVM을 사용하여 데이터 훈련 및 테스트

분류에서Dev

데이터 프레임에서 다른 레이블로 공백 텍스트 분류를 훈련하는 방법은 무엇입니까?

분류에서Dev

계층화 된 k- 겹 교차 검증을 적용한 후 데이터를 테스트 및 학습으로 분할하는 방법은 무엇입니까?

분류에서Dev

StandardScaler를 사용하여 훈련, 검증 및 테스트 세트를 올바르게 확장하는 방법은 무엇입니까?

분류에서Dev

파이프 라인을 사용하여 선형 서비스를 전처리, 훈련 및 테스트 할 때 가장 중요한 특성 계수를 얻는 방법은 무엇입니까?

분류에서Dev

scikit-learn 데이터 세트 훈련 및 테스트 데이터 플로팅 오류

분류에서Dev

다양한 크기의 훈련 데이터에 가장 적합한 scikit-learn 기계 학습 알고리즘은 무엇입니까?

분류에서Dev

scikit-learn을 사용하여 XOR 용 모델을 훈련하는 방법은 무엇입니까?

분류에서Dev

GPU 클러스터 (다중 GPU)에서 CNN을 훈련하는 방법은 무엇입니까?

분류에서Dev

이벤트 소스 환경에서 집계 루트 및 관련 엔티티를 재수 화하는 가장 좋은 방법은 무엇입니까?

분류에서Dev

PHP 및 PostgreSQL : 데이터베이스에서 사용자 관련 데이터를 표시하는 방법은 무엇입니까?

분류에서Dev

scikit-learn에서 대규모 데이터를 확장하는 방법은 무엇입니까?

분류에서Dev

scikit learn, python에서 명목 데이터를 처리하는 방법은 무엇입니까?

분류에서Dev

훈련 세트와 테스트 세트 모두에 대한 더미 변수를 얻는 방법은 무엇입니까?

분류에서Dev

부모 및 자식 ID가있는 목록 목록에서 계층 적 데이터를 강화하는 방법은 무엇입니까?

분류에서Dev

훈련 실행 사이의 중간 계층 내 각 세대에서 매개 변수를 업데이트하는 방법은 무엇입니까? (tensorflow 열망 실행)

분류에서Dev

훈련 및 테스트 데이터 세트를 동일한 형식으로 결합하는 방법

분류에서Dev

데이터 세트에서 RandomForestClassifer의 결과를 생성, 훈련 및 인쇄하는 방법

분류에서Dev

캐럿 훈련 된 랜덤 포레스트 모델을 predict () 및 performance () 함수에 입력하는 방법은 무엇입니까?

분류에서Dev

기능 테스트에서 Rspec 및 Capybara로 쿠키를 테스트하는 방법은 무엇입니까?

분류에서Dev

데이터 프레임의 여러 열에 대해 Bartlett 테스트 및 Kruskal 테스트를 반복하는 방법은 무엇입니까?

분류에서Dev

서비스 및 저장소로 스프링 데이터에 대한 단위 테스트를 설정하는 방법은 무엇입니까?

Related 관련 기사

  1. 1

    scikit-learn을 사용하여 매우 큰 데이터 세트를 훈련 / 업 스케일하는 방법은 무엇입니까?

  2. 2

    scikit-learn의 TransformedTargetRegressor 파이프 라인에서 훈련 된 추정기의 속성에 액세스하는 방법은 무엇입니까?

  3. 3

    훈련 데이터 세트에 대한 선형 회귀 결과를 테스트 데이터 세트에 적용하는 방법은 무엇입니까?

  4. 4

    다른 데이터 세트 인 훈련 및 테스트로 GridSearchCV를 수행하는 방법은 무엇입니까?

  5. 5

    R Studio에서 훈련 된 knn 모델의 정확도를 테스트하는 방법은 무엇입니까?

  6. 6

    교차 검증에서 Keras scikit-learn 래퍼의 훈련 및 검증 손실을 얻는 방법은 무엇입니까?

  7. 7

    기계 학습 및 예측을위한 좋은 훈련 데이터 세트를 구축하는 방법은 무엇입니까?

  8. 8

    Python-Scikit. SVM을 사용하여 데이터 훈련 및 테스트

  9. 9

    데이터 프레임에서 다른 레이블로 공백 텍스트 분류를 훈련하는 방법은 무엇입니까?

  10. 10

    계층화 된 k- 겹 교차 검증을 적용한 후 데이터를 테스트 및 학습으로 분할하는 방법은 무엇입니까?

  11. 11

    StandardScaler를 사용하여 훈련, 검증 및 테스트 세트를 올바르게 확장하는 방법은 무엇입니까?

  12. 12

    파이프 라인을 사용하여 선형 서비스를 전처리, 훈련 및 테스트 할 때 가장 중요한 특성 계수를 얻는 방법은 무엇입니까?

  13. 13

    scikit-learn 데이터 세트 훈련 및 테스트 데이터 플로팅 오류

  14. 14

    다양한 크기의 훈련 데이터에 가장 적합한 scikit-learn 기계 학습 알고리즘은 무엇입니까?

  15. 15

    scikit-learn을 사용하여 XOR 용 모델을 훈련하는 방법은 무엇입니까?

  16. 16

    GPU 클러스터 (다중 GPU)에서 CNN을 훈련하는 방법은 무엇입니까?

  17. 17

    이벤트 소스 환경에서 집계 루트 및 관련 엔티티를 재수 화하는 가장 좋은 방법은 무엇입니까?

  18. 18

    PHP 및 PostgreSQL : 데이터베이스에서 사용자 관련 데이터를 표시하는 방법은 무엇입니까?

  19. 19

    scikit-learn에서 대규모 데이터를 확장하는 방법은 무엇입니까?

  20. 20

    scikit learn, python에서 명목 데이터를 처리하는 방법은 무엇입니까?

  21. 21

    훈련 세트와 테스트 세트 모두에 대한 더미 변수를 얻는 방법은 무엇입니까?

  22. 22

    부모 및 자식 ID가있는 목록 목록에서 계층 적 데이터를 강화하는 방법은 무엇입니까?

  23. 23

    훈련 실행 사이의 중간 계층 내 각 세대에서 매개 변수를 업데이트하는 방법은 무엇입니까? (tensorflow 열망 실행)

  24. 24

    훈련 및 테스트 데이터 세트를 동일한 형식으로 결합하는 방법

  25. 25

    데이터 세트에서 RandomForestClassifer의 결과를 생성, 훈련 및 인쇄하는 방법

  26. 26

    캐럿 훈련 된 랜덤 포레스트 모델을 predict () 및 performance () 함수에 입력하는 방법은 무엇입니까?

  27. 27

    기능 테스트에서 Rspec 및 Capybara로 쿠키를 테스트하는 방법은 무엇입니까?

  28. 28

    데이터 프레임의 여러 열에 대해 Bartlett 테스트 및 Kruskal 테스트를 반복하는 방법은 무엇입니까?

  29. 29

    서비스 및 저장소로 스프링 데이터에 대한 단위 테스트를 설정하는 방법은 무엇입니까?

뜨겁다태그

보관