クラスタリングのためにDoc2Vecのドキュメント出力ベクトルを正規化しない理由はありますか?

ルーフェ

Word2Vecでは、単語ベクトルの長さが用語の頻度などのプロパティをエンコードできることを私は知っています。その場合、類義語などの2つの単語ベクトルを見ることができます。意味は似ていますが、コーパスでの使用法を考えると長さが異なります。

ただし、単語ベクトルを正規化すると、それらの「意味の方向」が維持され、次のようにクラスター化できます。意味。

その一連の考えに従って、同じことがDoc2Vecのドキュメントベクトルにも当てはまります。

しかし、私の質問は、ドキュメントベクトルをクラスター化する場合、それらを正規化ない理由はありますか?Word2Vecでは、単語の頻度プロパティを保持したいと言うことができますが、ドキュメントにも同様のことがありますか?

ゴジョモ

私は、ユニット正規化または非正規化のドキュメントベクトルのいずれかがクラスタリングに適していることを意味する推論や研究の前例に精通していません。

だから、私は両方を試して、どちらがあなたの目的に適しているように見えるかを確認します。

他の考え:

Word2Vec、私の一般的な印象は、より大きな単語ベクトルは、トレーニングデータでは、より明確な意味を持つ単語に関連付けられているということです。(つまり、それらは確実に隣接する単語の同じ小さなセットを意味する傾向があります。)一方、他の多くの多様な単語の中で複数の意味(多義性)と使用法を持つ単語は、より小さな大きさのベクトルを持つ傾向があります。

それでも、そのようなベクトルを比較する一般的な方法であるコサイン類似度は、大きさに気づきません。これは、ほとんどの比較で、「意味の統一」を示す微妙な指標がなく、単語の最高の意味が必要なためと考えられます。

同様の効果Doc2Vecベクトルにも存在する可能性あります。マグニチュードの小さいdoc-vectorは、ドキュメントの単語使用量/主題がより広いことを示唆している可能性がありますが、マグニチュードの高いdoc-vectorは、より焦点を絞ったドキュメントを示します。(私も同様にすることを予感があるだろう長い文書を持っている傾向があり、低振幅の言葉/トピックを持っていることの狭いセットで小さなドキュメントのに対し、彼らは言葉のより大きな多様性を使用しているため、ドキュメントベクトルを高マグニチュードDOC-ベクトル。しかし、私はこの予感を具体的に観察/テストしていません。ここでの影響は、トレーニングの反復回数など、他のトレーニングの選択によって大きく影響を受ける可能性があります。)

したがって、正規化されていないベクトルは、フォーカスされたドキュメントをより一般的なドキュメントから分離するなど、いくつかのクラスタリングの目標にとって興味深いものになる可能性があります。繰り返しになりますが、この長い分析の後、両方の方法を試して、どちらかが特定のニーズに適しているかどうかを確認することをお勧めします。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

新しいドキュメントのためのkmeansを使用したDoc2Vecクラスタリング

分類Dev

段落/ doc2vecベクトルをクラスタリングする場合の適切な距離メトリックは何ですか?

分類Dev

Doc2vecは、2つのドキュメントベクトルではなく、1つのドキュメントのみのデータを出力します。

分類Dev

gensim 0.11.1のDoc2Vecからドキュメントベクトルを取得するにはどうすればよいですか?

分類Dev

Doc2Vecモデルは、ドキュメントタグをシンボルに分割します

分類Dev

doc2vecの階層トレーニング:同じドキュメントの文に同じラベルを割り当てるとどのように機能しますか?

分類Dev

gensim doc2vecは、事前にトレーニングされたモデルからより多くのドキュメントをトレーニングします

分類Dev

Genisim doc2vec:短いドキュメントはどのように処理されますか?

分類Dev

RESTドキュメントには、各リクエストパラメータのすべての可能な値を含める必要がありますか?

分類Dev

doc2vecモデルを使用して、ドキュメントと比較した1つの単語またはいくつかの単語の類似性を計算するにはどうすればよいですか?

分類Dev

同じデータドキュメントをfirestoreの2つの異なるコレクションに追加する正しい方法はありますか?

分類Dev

Stringクラスで利用可能なすべてのメソッドをリストしたscalaドキュメントはどこにありますか

分類Dev

SharePointドキュメントライブラリビューに2つのレベルのグループ化されたドキュメントを表示するために必要なアクセス許可

分類Dev

角度のあるグーグルマップのクラスタリングオプションに関するドキュメントはありますか?

分類Dev

データがSQLデータベースに挿入されない理由をトラブルシューティングするための関数またはコマンドがPHPにありますか?

分類Dev

doc2vecモデル全体からの単語ベクトルと特定のドキュメントからの単語ベクトル

分類Dev

単語ベクトルは、doc2vec DBOWの段落ベクトルとどのように共同トレーニングされますか?

分類Dev

LotusNotes-データベース内に複数の新しいドキュメントを作成するためのスクリプトまたは数式

分類Dev

shared_ptrのベクトルがエラーになります:ベクトルリストをプッシュバックしたいときに「オーバーロードされた関数のインスタンスがありません」

分類Dev

doc2vec: 推論されたドキュメントからドキュメントをプルする

分類Dev

クラスのドキュメントを取得するには、どのdocタイプを渡す必要がありますか?

分類Dev

Doc2Vec:ラベルのテキストを取得します

分類Dev

Doc2Vecを使用して2つのドキュメント間の類似性を測定します

分類Dev

スタックビルドの結果、「出力は-oでリダイレクトされましたが、メインモジュールがないため、出力は生成されません」という結果になります。

分類Dev

トランザクション処理用にRocketU2データベースを構成するためのドキュメントはありますか?

分類Dev

関数型プログラミングに関するいくつかの本では、インスタンスメソッドはコンパニオンオブジェクトで定義されたバイナリ関数に委任します。その背後にある実用的な理由はありますか?

分類Dev

水平ポッドオートスケーラーメトリックスキャンを高速化する方法はありますか?新しいポッドをアップスケールするのに2分かかります

分類Dev

「チェックリスト」フィールドのクエリをフィルタリングするための「オプション」はありますか?select2_multipleのように。しかし、select2_multipleの代わりにチェックリストを使用したい

分類Dev

OS Xアクセシビリティクライアントを作成するためのドキュメントはどこにありますか?

Related 関連記事

  1. 1

    新しいドキュメントのためのkmeansを使用したDoc2Vecクラスタリング

  2. 2

    段落/ doc2vecベクトルをクラスタリングする場合の適切な距離メトリックは何ですか?

  3. 3

    Doc2vecは、2つのドキュメントベクトルではなく、1つのドキュメントのみのデータを出力します。

  4. 4

    gensim 0.11.1のDoc2Vecからドキュメントベクトルを取得するにはどうすればよいですか?

  5. 5

    Doc2Vecモデルは、ドキュメントタグをシンボルに分割します

  6. 6

    doc2vecの階層トレーニング:同じドキュメントの文に同じラベルを割り当てるとどのように機能しますか?

  7. 7

    gensim doc2vecは、事前にトレーニングされたモデルからより多くのドキュメントをトレーニングします

  8. 8

    Genisim doc2vec:短いドキュメントはどのように処理されますか?

  9. 9

    RESTドキュメントには、各リクエストパラメータのすべての可能な値を含める必要がありますか?

  10. 10

    doc2vecモデルを使用して、ドキュメントと比較した1つの単語またはいくつかの単語の類似性を計算するにはどうすればよいですか?

  11. 11

    同じデータドキュメントをfirestoreの2つの異なるコレクションに追加する正しい方法はありますか?

  12. 12

    Stringクラスで利用可能なすべてのメソッドをリストしたscalaドキュメントはどこにありますか

  13. 13

    SharePointドキュメントライブラリビューに2つのレベルのグループ化されたドキュメントを表示するために必要なアクセス許可

  14. 14

    角度のあるグーグルマップのクラスタリングオプションに関するドキュメントはありますか?

  15. 15

    データがSQLデータベースに挿入されない理由をトラブルシューティングするための関数またはコマンドがPHPにありますか?

  16. 16

    doc2vecモデル全体からの単語ベクトルと特定のドキュメントからの単語ベクトル

  17. 17

    単語ベクトルは、doc2vec DBOWの段落ベクトルとどのように共同トレーニングされますか?

  18. 18

    LotusNotes-データベース内に複数の新しいドキュメントを作成するためのスクリプトまたは数式

  19. 19

    shared_ptrのベクトルがエラーになります:ベクトルリストをプッシュバックしたいときに「オーバーロードされた関数のインスタンスがありません」

  20. 20

    doc2vec: 推論されたドキュメントからドキュメントをプルする

  21. 21

    クラスのドキュメントを取得するには、どのdocタイプを渡す必要がありますか?

  22. 22

    Doc2Vec:ラベルのテキストを取得します

  23. 23

    Doc2Vecを使用して2つのドキュメント間の類似性を測定します

  24. 24

    スタックビルドの結果、「出力は-oでリダイレクトされましたが、メインモジュールがないため、出力は生成されません」という結果になります。

  25. 25

    トランザクション処理用にRocketU2データベースを構成するためのドキュメントはありますか?

  26. 26

    関数型プログラミングに関するいくつかの本では、インスタンスメソッドはコンパニオンオブジェクトで定義されたバイナリ関数に委任します。その背後にある実用的な理由はありますか?

  27. 27

    水平ポッドオートスケーラーメトリックスキャンを高速化する方法はありますか?新しいポッドをアップスケールするのに2分かかります

  28. 28

    「チェックリスト」フィールドのクエリをフィルタリングするための「オプション」はありますか?select2_multipleのように。しかし、select2_multipleの代わりにチェックリストを使用したい

  29. 29

    OS Xアクセシビリティクライアントを作成するためのドキュメントはどこにありますか?

ホットタグ

アーカイブ