One Hotエンコーディングを特定のデータセット(マトリックス)で使用し、アルゴリズムを学習するためのトレーニングデータとして使用すると、元のマトリックス自体をトレーニングデータとして使用する場合と比較して、予測精度に関して大幅に優れた結果が得られることに気付きました。このパフォーマンスの向上はどのように起こりますか?
多くの学習アルゴリズムは、特徴ごとに単一の重みを学習するか、サンプル間の距離を使用します。前者は、説明が簡単なロジスティック回帰などの線形モデルの場合です。
値が「UK」、「French」、「US」のカテゴリカルフィーチャ「nationality」が1つしかないデータセットがあるとします。一般性を失うことなく、これらが0、1、および2としてエンコードされていると仮定します。次に、線形分類器でこの特徴の重みwを取得します。これにより、制約w×x + b> 0に基づいて何らかの決定が行われます。 、または同等にw×x <b。
ここでの問題は、重みwが3方向の選択をエンコードできないことです。w×xの3つの可能な値は、0、w、および2×wです。これら3つすべてが同じ決定につながる(すべて<bまたは≥b)か、「UK」と「French」が同じ決定につながるか、「French」と「US」が同じ決定になります。モデルが「UK」と「US」に同じラベルを付け、「French」に奇数のラベルを付ける必要があることを学習する可能性はありません。
ワンホットエンコーディングにより、特徴空間を3つの特徴に効果的に拡大し、それぞれが独自の重みを取得するため、決定関数はw [UK] x [UK] + w [FR] x [FR] + wになります。 [US] x [US] <b、ここですべてのxはブール値です。この空間では、そのような線形関数は、可能性の任意の合計/論理和を表すことができます(たとえば、英語を話す人の予測子となる可能性がある「英国または米国」)。
同様に、サンプル間の標準的な距離メトリック(k最近傍法など)に基づく学習者は、ワンホットエンコーディングなしでは混乱します。ナイーブエンコーディングとユークリッド距離では、フランスと米国の間の距離は1です。米国と英国の間の距離は2です。しかし、ワンホットエンコーディングでは、[1、0、0]、[0、1]の間のペアワイズ距離です。 、0]と[0、0、1]はすべて√2に等しい。
これは、すべての学習アルゴリズムに当てはまるわけではありません。決定木とランダムフォレストなどの派生モデルは、十分に深い場合、ワンホットエンコーディングなしでカテゴリ変数を処理できます。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加