Iris Dataset (Kagle에서 다운로드)에 대한 분류 알고리즘을 구현하려고합니다. 종 열에서 클래스 (Iris-setosa, Iris-versicolor, Iris-virginica)는 정렬 된 순서로되어 있습니다. Scikit-Learn을 사용하여 기차 및 테스트 데이터를 어떻게 계층화 할 수 있습니까?
0.3 테스트 비율로 데이터를 섞고 분할하려면 다음을 사용할 수 있습니다.
sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, shuffle=True)
여기서 X는 데이터, y는 해당 레이블, test_size 는 테스트를 위해 유지해야하는 데이터의 백분율, shuffle = True 는 분할하기 전에 데이터를 섞습니다.
데이터가 열에 따라 균등하게 분할되도록하려면 stratify 매개 변수에 제공 할 수 있습니다 .
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
shuffle=True,
stratify = X['YOUR_COLUMN_LABEL'])
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다