StratifiedKFoldとscikit-learnのKFold

debugcn 投稿 Dev

CR7

私はこのコードを使用してテストKFoldしStratifiedKFoldます。

import numpy as np
from sklearn.model_selection import KFold,StratifiedKFold

X = np.array([
    [1,2,3,4],
    [11,12,13,14],
    [21,22,23,24],
    [31,32,33,34],
    [41,42,43,44],
    [51,52,53,54],
    [61,62,63,64],
    [71,72,73,74]
])

y = np.array([0,0,0,0,1,1,1,1])

sfolder = StratifiedKFold(n_splits=4,random_state=0,shuffle=False)
floder = KFold(n_splits=4,random_state=0,shuffle=False)

for train, test in sfolder.split(X,y):
    print('Train: %s | test: %s' % (train, test))
print("StratifiedKFold done")

for train, test in floder.split(X,y):
    print('Train: %s | test: %s' % (train, test))
print("KFold done")

StratifiedKFoldラベルの比率を維持できることはわかりましたが、KFoldできません。

Train: [1 2 3 5 6 7] | test: [0 4]
Train: [0 2 3 4 6 7] | test: [1 5]
Train: [0 1 3 4 5 7] | test: [2 6]
Train: [0 1 2 4 5 6] | test: [3 7]
StratifiedKFold done
Train: [2 3 4 5 6 7] | test: [0 1]
Train: [0 1 4 5 6 7] | test: [2 3]
Train: [0 1 2 3 6 7] | test: [4 5]
Train: [0 1 2 3 4 5] | test: [6 7]
KFold done

StratifiedKFold良いようですので、KFold使わない方がいいですか？

KFold代わりにStratifiedKFoldいつ使用するか？

JayPeerachai

「KFoldの代わりにStratifiedKFoldを使用するのはいつですか？」と尋ねるべきだと思います。

「KFold」と「Stratified」が最初に何であるかを知る必要があります。

KFoldは、データセットをk個のフォールドに分割するクロスバリデーターです。

階層化とは、データセットの各フォールドが、特定のラベルで同じ割合の観測値を持つようにすることです。

つまり、StratifiedKFoldはKFoldの改良版であることを意味します

したがって、この質問に対する答えは、クラス分布が不均衡な分類タスクを処理する場合、KFoldよりもStratifiedKFoldを優先する必要があるということです。

例えば

16個のデータポイントと不均衡なクラス分布を持つデータセットがあるとします。データセットでは、12個のデータポイントがクラスAに属し、残り（つまり、4個）がクラスBに属しています。クラスBとクラスAの比率は1/3です。StratifiedKFoldを使用してk = 4に設定すると、トレーニングセットにはクラスAの3つのデータポイントとクラスBの9つのデータポイントが含まれ、テストセットにはクラスAの3つのデータポイントとクラスBの1つのデータポイントが含まれます。

ご覧のとおり、データセットのクラス分布はStratifiedKFoldによる分割で保持されますが、KFoldはこれを考慮していません。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-13

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

StratifiedKFoldとscikit-learnのKFold

StratifiedKFoldとscikit-learnのKFold

StratifiedKFold vs KFold in scikit-learn

scikit-learn StratifiedKFold implementation

Scikit-Learn：KFold CVの予測確率を取得する方法は？

scikit-StratifiedKFoldの実装を学ぶ

scikit learnのRandomForestClassifierとExtraTreesClassifier

sklearnのStratifiedKFoldとStratifiedShuffleSplitの違い

scikit-learnのDictionaryLearningとMiniBatchDictionaryLearningの違い

scikit-learnとsklearnの違い

scikit-learnでのSpectralClusteringとspectrum_clustering

StratifiedKFold分割トレインと検証セットのサイズ

「OneVsRestClassifier」（Scikit-learn）と「BinaryRelevance」（Scikit-multilearn）の違いは何ですか？

scikit learnのOneVsRestClassifierとMultiOutputClassifierの違いは何ですか？

scikit-learnのSVCとSVMの違いは何ですか？

scikit-learnのpredictとpredict_probaの違い

kerasとscikit-learnの精度計算の違い

Scikit-learnのOneHotEncoderとKNNImpute間の循環ループ

scikit-learnでのPCA投影と再構成

scikit-learn：SVCとSGDの違いは何ですか？

XGBoostError：パイプラインとscikit.learnの問題

KFoldとShuffleSplit CVの違いは何ですか？

Scikit-learn：preprocessing.scale（）とpreprocessing.StandardScalar（）

conda update scikit-learn（scipyとnumpyも）

get_dummies（Pandas）とOneHotEncoder（Scikit-learn）の長所と短所は何ですか？

ApacheSparkとscikit_learnの間のKMeansで一貫性のない結果

MacOSでのscikit-learnとのibm_boto3互換性の問題

PycharmとSpyderの間のkfoldでの異なるサンプルサイズ

GridsearchとKfoldのデフォルトのCVの違いは何ですか

scikit-learnのpredict_probaとdecision_functionの違いは何ですか？

scikit-learnのpredict_probaとdecision_functionの違いは何ですか？