私はいくつかのカテゴリデータをPythonでクラスタリングする可能性を模索しています。私は現在、それぞれ約3〜10レベルの8つの機能を持っています。
私が理解したように、このフレームワークではkmeansとkmodesの両方を使用したワンホットエンコーディングを使用できますが、次元の呪いの問題により、機能/レベルの膨大な組み合わせではkmeansは理想的ではない可能性があります。
これは正しいです?
現時点では、いくつかの数値特徴も柔軟に投入できるため、kmeansルートをたどります。シルエット統計を計算し、クラスターの最適数を評価する方がはるかに簡単なようです。
これは意味がありますか?あるアプローチが他のアプローチよりも優先されるべき状況について何か提案はありますか?
ありがとう
カテゴリ属性にkモードアプローチを使用し、連続属性に平均を使用するバリアントもあります。
Kモードには、one-hot + k-meansよりも大きな利点があります。解釈可能です。すべてのクラスターには、プロトタイプに対して1つの明示的なカテゴリ値があります。k-meansの場合、SSQの目的のため、ワンホット変数は値の間にある場合にエラーが最小になります。それは望ましくありません。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加