段落/ doc2vecベクトルをクラスタリングする場合の適切な距離メトリックは何ですか？

debugcn 投稿 Dev

綿毛

私の意図は、HDBSCANを使用してdoc2vecからドキュメントベクトルをクラスター化することです。セマンティックとテキストの重複がある小さなクラスターを見つけたいと思います。

これを行うために、私はgensimを使用してドキュメントベクトルを生成しています。結果のdocvecsの要素はすべて[-1,1]の範囲にあります。

2つのドキュメントを比較するために、角度の類似性を比較したいと思います。これを行うには、ベクトルのコサイン類似度を計算します。これは正常に機能します。

ただし、ドキュメントをクラスター化するには、HDBSCANには、類似性マトリックスではなく、距離マトリックスが必要です。コサイン類似度からコサイン距離へのネイティブ変換sklearnは1-similarityです。ただし、この式を使用すると、三角不等式が破られ、真の距離メトリックになることができなくなる可能性があることを理解しています。同様のタスクについて他の人のコードを検索して見ると、ほとんどの人がsklearn.metrics.pairwise.pairwise_distances(data, metric='cosine')コサイン距離を定義するものを使用しているよう1-similarityです。適切な結果が得られるようです。

これが正しいのか、それとも代わりに角距離を使用する必要があるのか、として計算されnp.arccos(cosine similarity)/piます。また、l2で正規化されたドキュメントベクトルでユークリッド距離を使用する人もいます。これはコサイン類似度と同等のようです。

クラスタリングのためにドキュメントベクトル間の距離を計算するための最も適切な方法を教えてください:)

ゴジョモ

適切なメトリックではないコーナーケースがあるにもかかわらず、実際にはコサイン距離が使用されていると思います。

「結果のドキュメントの要素はすべて[-1,1]の範囲にあります」とおっしゃっています。通常、これが当てはまるとは限りません。ただし、すべての生のdocベクトルをすでにユニット正規化した場合はそうなります。

その単位正規化を実行した場合、または実行したい場合、そのような正規化の後、ユークリッド距離は常にコサイン距離と同じ最近傍のランク付けされた順序を与えます。絶対値、およびそれらの間の相対的な比率は少し異なりますが、すべての「XはZよりもYに近い」テストは、コサイン距離に基づくテストと同じになります。したがって、クラスタリングの品質は、コサイン距離を直接使用する場合とほぼ同じである必要があります。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-1

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

段落/ doc2vecベクトルをクラスタリングする場合の適切な距離メトリックは何ですか？

段落/ doc2vecベクトルをクラスタリングする場合の適切な距離メトリックは何ですか？

Doc2Vec文を段落ベクトルに結合する

doc2vec段落表現をトレーニング後のクラスタグにマッピングする

単語ベクトルは、doc2vec DBOWの段落ベクトルとどのように共同トレーニングされますか？

データの段落を含むXMLファイルの要素を設計（適切にタグ付け）するためのベストプラクティスは何ですか？

ifステートメントでボタンクリックの段落コンテンツを変更するにはどうすればよいですか？

InDesignスクリプトは、段落スタイルの場合にストーリーを抽出します

sed段落タグ

2列の段落

複数の段落

クリック後に他のページの要素（テキスト段落の場合もあります）を強調表示することはできますか？

翡翠：段落内のリンク

段落内のテキストは、<p>タグを省略した場合、フレックスボックスの垂直方向の中央にのみ配置されます。その背後にある理由は何ですか？

リンクではない段落のすべての最初の文字のスタイルを設定する方法

pythonをトリプルクリックして段落を選択する方法は？

段落のOnclickイベントは、段落の下でトリガーされます

HTML / CSS段落タグ

Rの段落で分割

ブックダウンを使用するときに、リストアイテム内の段落を適切にインデントする

ブックダウンを使用するときに、リストアイテム内の段落を適切にインデントする

AngularNativeScriptの段落にルーターリンクを追加する

Divの右下の段落

Elmの段落の幅

段落行の配置XML

ボタンをクリックして段落テキストを変更するJavascriptイベントリスナーが機能しませんか？

ボタンクリックで段落のサイズを変更する

何かをクリックした後に別の段落を表示する方法

特定の段落をクリックしてイベントをアクティブ化する方法

ボタンをクリックするだけで、5つの段落のうち3番目の段落を非表示にします。段落にクラスやIDを割り当てる必要はありません。

スクリプトを使用してSolrで段落を個別のドキュメントに解析する