私は非線形クラスタリングアルゴリズムについて学んでいて、この2Dグラフに出くわしました。どのクラスタリングアルゴリズムとハイパーパラメーターの組み合わせがこのデータをうまくクラスター化するのか疑問に思いました。
人間がこれらの5つのスパイクをクラスター化するのと同じように。アルゴリズムにそれを実行させたい。KMeansを試しましたが、水平方向または垂直方向にしかクラスタリングされていませんでした。GMMを使い始めましたが、目的のクラスタリングに適したハイパーパラメーターを取得できませんでした。
それが機能しない場合は、常に最初に前処理を改善するようにしてください。k-meansなどのアルゴリズムはスケーリングに非常に敏感であるため、慎重に選択する必要があります。
ここでは、GMMが明らかに最初の選択肢です。さまざまなツールを試す価値があるかもしれません。RのMclustは非常に遅いです。SklearnのGMMは不安定な場合があります。ELKIを使い始めるのは少し難しいですが、そのEMは通常私に最良の結果をもたらしました。
GMMとは別に、相関クラスタリングを試す価値があると思われます。これらのアルゴリズムは、クラスターが存在する多様体(線など)があることを前提としています。例としては、ORCLUS、LMCLUS、CASH、4Cなどがあります。しかし、私の意見では、これらは主に合成玩具データで機能します。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加