kmodesVSワンホットエンコーディング+カテゴリカルデータのkmeans？

debugcn 投稿 Dev

クラッシュ

私はいくつかのカテゴリデータをPythonでクラスタリングする可能性を模索しています。私は現在、それぞれ約3〜10レベルの8つの機能を持っています。

私が理解したように、このフレームワークではkmeansとkmodesの両方を使用したワンホットエンコーディングを使用できますが、次元の呪いの問題により、機能/レベルの膨大な組み合わせではkmeansは理想的ではない可能性があります。

これは正しいです？

現時点では、いくつかの数値特徴も柔軟に投入できるため、kmeansルートをたどります。シルエット統計を計算し、クラスターの最適数を評価する方がはるかに簡単なようです。

これは意味がありますか？あるアプローチが他のアプローチよりも優先されるべき状況について何か提案はありますか？

ありがとう

QUIT--Anony-Mousse

カテゴリ属性にkモードアプローチを使用し、連続属性に平均を使用するバリアントもあります。

Kモードには、one-hot + k-meansよりも大きな利点があります。解釈可能です。すべてのクラスターには、プロトタイプに対して1つの明示的なカテゴリ値があります。k-meansの場合、SSQの目的のため、ワンホット変数は値の間にある場合にエラーが最小になります。それは望ましくありません。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-10

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

kmodesVSワンホットエンコーディング+カテゴリカルデータのkmeans？

kmodesVSワンホットエンコーディング+カテゴリカルデータのkmeans？

Excelでのカテゴリデータのワンホット（ダミー）エンコーディング

Python PANDAS：ワンホットエンコーディングをカテゴリカルに戻す方法

列内の複数のカテゴリデータを1つのホットエンコーディング

カテゴリが欠落しているワンホットエンコーディング

ワンホットエンコーディング

Python：巨大なデータのワンホットエンコーディング

カテゴリデータセットを使用したワンホットエンコーディング：カテゴリデータのさまざまな値（数が少ない）を処理する方法

パンダワンホットエンコーディング：頻度の低いカテゴリをまとめる

1つのホットエンコーディング単一カテゴリ数値列

1行のいくつかのカテゴリにワンホットエンコーディングを使用する

Theanoでの1-of-k（ワンホット）エンコーディング

ワンホットエンコーディングからのTensorflowマスク

model.matrixを使用したワンホットエンコーディング

ワンホットエンコーディングへのセグメンテーション

ワンホットエンコーディング：リストメンバーシップエラー

rデータセット内の1つの変数のワンホットエンコーディング

ワンホットエンコーディングシングルサンプルパンダ

ワンホットエンコーディングなしでカテゴリ変数を持つ決定木を使用する方法はありますか？

ワンホットエンコーディングのロジスティック回帰

カテゴリカルデータのプロットパンダ/ボケ

sklearn-ワンホットエンコーディング時に欠落データを組み込む方法

それぞれのワンホットエンコードされた列にカテゴリデータの値を入力します

graphvizはワンホットデコードされたカテゴリデータを表示できますか？

パンダの1つのホットエンコーディングで未知のカテゴリ値を処理する方法

複数の同様の列を持つパンダのワンホットエンコーディング

Verilogの1つのホットエンコーディング

ML分類：カテゴリデータのエンコード

パンダでの「ワンホット」エンコーディングの逆転

1つのホットエンコーディング文字