Scikit-Learn에서 훈련 및 테스트 데이터를 계층화하는 방법은 무엇입니까?

debugcn 에 게시 Dev

사라 스

Iris Dataset (Kagle에서 다운로드)에 대한 분류 알고리즘을 구현하려고합니다. 종 열에서 클래스 (Iris-setosa, Iris-versicolor, Iris-virginica)는 정렬 된 순서로되어 있습니다. Scikit-Learn을 사용하여 기차 및 테스트 데이터를 어떻게 계층화 할 수 있습니까?

Metalrt

0.3 테스트 비율로 데이터를 섞고 분할하려면 다음을 사용할 수 있습니다.

sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, shuffle=True)

여기서 X는 데이터, y는 해당 레이블, test_size 는 테스트를 위해 유지해야하는 데이터의 백분율, shuffle = True 는 분할하기 전에 데이터를 섞습니다.

데이터가 열에 따라 균등하게 분할되도록하려면 stratify 매개 변수에 제공 할 수 있습니다 .

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, 
                                                    shuffle=True, 
                                stratify = X['YOUR_COLUMN_LABEL'])

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-2

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

Scikit-Learn에서 훈련 및 테스트 데이터를 계층화하는 방법은 무엇입니까?

Scikit-Learn에서 훈련 및 테스트 데이터를 계층화하는 방법은 무엇입니까?

scikit-learn을 사용하여 매우 큰 데이터 세트를 훈련 / 업 스케일하는 방법은 무엇입니까?

scikit-learn의 TransformedTargetRegressor 파이프 라인에서 훈련 된 추정기의 속성에 액세스하는 방법은 무엇입니까?

훈련 데이터 세트에 대한 선형 회귀 결과를 테스트 데이터 세트에 적용하는 방법은 무엇입니까?

다른 데이터 세트 인 훈련 및 테스트로 GridSearchCV를 수행하는 방법은 무엇입니까?

R Studio에서 훈련 된 knn 모델의 정확도를 테스트하는 방법은 무엇입니까?

교차 검증에서 Keras scikit-learn 래퍼의 훈련 및 검증 손실을 얻는 방법은 무엇입니까?

기계 학습 및 예측을위한 좋은 훈련 데이터 세트를 구축하는 방법은 무엇입니까?

Python-Scikit. SVM을 사용하여 데이터 훈련 및 테스트

데이터 프레임에서 다른 레이블로 공백 텍스트 분류를 훈련하는 방법은 무엇입니까?

계층화 된 k- 겹 교차 검증을 적용한 후 데이터를 테스트 및 학습으로 분할하는 방법은 무엇입니까?

StandardScaler를 사용하여 훈련, 검증 및 테스트 세트를 올바르게 확장하는 방법은 무엇입니까?

파이프 라인을 사용하여 선형 서비스를 전처리, 훈련 및 테스트 할 때 가장 중요한 특성 계수를 얻는 방법은 무엇입니까?

scikit-learn 데이터 세트 훈련 및 테스트 데이터 플로팅 오류

다양한 크기의 훈련 데이터에 가장 적합한 scikit-learn 기계 학습 알고리즘은 무엇입니까?

scikit-learn을 사용하여 XOR 용 모델을 훈련하는 방법은 무엇입니까?

GPU 클러스터 (다중 GPU)에서 CNN을 훈련하는 방법은 무엇입니까?

이벤트 소스 환경에서 집계 루트 및 관련 엔티티를 재수 화하는 가장 좋은 방법은 무엇입니까?

PHP 및 PostgreSQL : 데이터베이스에서 사용자 관련 데이터를 표시하는 방법은 무엇입니까?

scikit-learn에서 대규모 데이터를 확장하는 방법은 무엇입니까?

scikit learn, python에서 명목 데이터를 처리하는 방법은 무엇입니까?

훈련 세트와 테스트 세트 모두에 대한 더미 변수를 얻는 방법은 무엇입니까?

부모 및 자식 ID가있는 목록 목록에서 계층 적 데이터를 강화하는 방법은 무엇입니까?

훈련 실행 사이의 중간 계층 내 각 세대에서 매개 변수를 업데이트하는 방법은 무엇입니까? (tensorflow 열망 실행)

훈련 및 테스트 데이터 세트를 동일한 형식으로 결합하는 방법

데이터 세트에서 RandomForestClassifer의 결과를 생성, 훈련 및 인쇄하는 방법

캐럿 훈련 된 랜덤 포레스트 모델을 predict () 및 performance () 함수에 입력하는 방법은 무엇입니까?

기능 테스트에서 Rspec 및 Capybara로 쿠키를 테스트하는 방법은 무엇입니까?

데이터 프레임의 여러 열에 대해 Bartlett 테스트 및 Kruskal 테스트를 반복하는 방법은 무엇입니까?

서비스 및 저장소로 스프링 데이터에 대한 단위 테스트를 설정하는 방법은 무엇입니까?