クラスタリングのためにDoc2Vecのドキュメント出力ベクトルを正規化しない理由はありますか？

debugcn 投稿 Dev

ルーフェ

Word2Vecでは、単語ベクトルの長さが用語の頻度などのプロパティをエンコードできることを私は知っています。その場合、類義語などの2つの単語ベクトルを見ることができます。意味は似ていますが、コーパスでの使用法を考えると長さが異なります。

ただし、単語ベクトルを正規化すると、それらの「意味の方向」が維持され、次のようにクラスター化できます。意味。

その一連の考えに従って、同じことがDoc2Vecのドキュメントベクトルにも当てはまります。

しかし、私の質問は、ドキュメントベクトルをクラスター化する場合、それらを正規化しない理由はありますか？Word2Vecでは、単語の頻度プロパティを保持したいと言うことができますが、ドキュメントにも同様のことがありますか？

ゴジョモ

私は、ユニット正規化または非正規化のドキュメントベクトルのいずれかがクラスタリングに適していることを意味する推論や研究の前例に精通していません。

だから、私は両方を試して、どちらがあなたの目的に適しているように見えるかを確認します。

他の考え：

でWord2Vec、私の一般的な印象は、より大きな単語ベクトルは、トレーニングデータでは、より明確な意味を持つ単語に関連付けられているということです。（つまり、それらは確実に隣接する単語の同じ小さなセットを意味する傾向があります。）一方、他の多くの多様な単語の中で複数の意味（多義性）と使用法を持つ単語は、より小さな大きさのベクトルを持つ傾向があります。

それでも、そのようなベクトルを比較する一般的な方法であるコサイン類似度は、大きさに気づきません。これは、ほとんどの比較で、「意味の統一」を示す微妙な指標がなく、単語の最高の意味が必要なためと考えられます。

同様の効果がDoc2Vecベクトルにも存在する可能性があります。マグニチュードの小さいdoc-vectorは、ドキュメントの単語使用量/主題がより広いことを示唆している可能性がありますが、マグニチュードの高いdoc-vectorは、より焦点を絞ったドキュメントを示します。（私も同様にすることを予感があるだろう長い文書を持っている傾向があり、低振幅の言葉/トピックを持っていることの狭いセットで小さなドキュメントのに対し、彼らは言葉のより大きな多様性を使用しているため、ドキュメントベクトルを高マグニチュードDOC-ベクトル。しかし、私はこの予感を具体的に観察/テストしていません。ここでの影響は、トレーニングの反復回数など、他のトレーニングの選択によって大きく影響を受ける可能性があります。）

したがって、正規化されていないベクトルは、フォーカスされたドキュメントをより一般的なドキュメントから分離するなど、いくつかのクラスタリングの目標にとって興味深いものになる可能性があります。繰り返しになりますが、この長い分析の後、両方の方法を試して、どちらかが特定のニーズに適しているかどうかを確認することをお勧めします。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-11

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

クラスタリングのためにDoc2Vecのドキュメント出力ベクトルを正規化しない理由はありますか？

クラスタリングのためにDoc2Vecのドキュメント出力ベクトルを正規化しない理由はありますか？

新しいドキュメントのためのkmeansを使用したDoc2Vecクラスタリング

段落/ doc2vecベクトルをクラスタリングする場合の適切な距離メトリックは何ですか？

Doc2vecは、2つのドキュメントベクトルではなく、1つのドキュメントのみのデータを出力します。

gensim 0.11.1のDoc2Vecからドキュメントベクトルを取得するにはどうすればよいですか？

Doc2Vecモデルは、ドキュメントタグをシンボルに分割します

doc2vecの階層トレーニング：同じドキュメントの文に同じラベルを割り当てるとどのように機能しますか？

gensim doc2vecは、事前にトレーニングされたモデルからより多くのドキュメントをトレーニングします

Genisim doc2vec：短いドキュメントはどのように処理されますか？

RESTドキュメントには、各リクエストパラメータのすべての可能な値を含める必要がありますか？

doc2vecモデルを使用して、ドキュメントと比較した1つの単語またはいくつかの単語の類似性を計算するにはどうすればよいですか？

同じデータドキュメントをfirestoreの2つの異なるコレクションに追加する正しい方法はありますか？

Stringクラスで利用可能なすべてのメソッドをリストしたscalaドキュメントはどこにありますか

SharePointドキュメントライブラリビューに2つのレベルのグループ化されたドキュメントを表示するために必要なアクセス許可

角度のあるグーグルマップのクラスタリングオプションに関するドキュメントはありますか？

データがSQLデータベースに挿入されない理由をトラブルシューティングするための関数またはコマンドがPHPにありますか？

doc2vecモデル全体からの単語ベクトルと特定のドキュメントからの単語ベクトル

単語ベクトルは、doc2vec DBOWの段落ベクトルとどのように共同トレーニングされますか？

LotusNotes-データベース内に複数の新しいドキュメントを作成するためのスクリプトまたは数式

shared_ptrのベクトルがエラーになります：ベクトルリストをプッシュバックしたいときに「オーバーロードされた関数のインスタンスがありません」

doc2vec: 推論されたドキュメントからドキュメントをプルする

クラスのドキュメントを取得するには、どのdocタイプを渡す必要がありますか？

Doc2Vec：ラベルのテキストを取得します

Doc2Vecを使用して2つのドキュメント間の類似性を測定します

スタックビルドの結果、「出力は-oでリダイレクトされましたが、メインモジュールがないため、出力は生成されません」という結果になります。

トランザクション処理用にRocketU2データベースを構成するためのドキュメントはありますか？

関数型プログラミングに関するいくつかの本では、インスタンスメソッドはコンパニオンオブジェクトで定義されたバイナリ関数に委任します。その背後にある実用的な理由はありますか？

水平ポッドオートスケーラーメトリックスキャンを高速化する方法はありますか？新しいポッドをアップスケールするのに2分かかります

「チェックリスト」フィールドのクエリをフィルタリングするための「オプション」はありますか？select2_multipleのように。しかし、select2_multipleの代わりにチェックリストを使用したい

OS Xアクセシビリティクライアントを作成するためのドキュメントはどこにありますか？