Word2Vecでは、単語ベクトルの長さが用語の頻度などのプロパティをエンコードできることを私は知っています。その場合、類義語などの2つの単語ベクトルを見ることができます。意味は似ていますが、コーパスでの使用法を考えると長さが異なります。
ただし、単語ベクトルを正規化すると、それらの「意味の方向」が維持され、次のようにクラスター化できます。意味。
その一連の考えに従って、同じことがDoc2Vecのドキュメントベクトルにも当てはまります。
しかし、私の質問は、ドキュメントベクトルをクラスター化する場合、それらを正規化しない理由はありますか?Word2Vecでは、単語の頻度プロパティを保持したいと言うことができますが、ドキュメントにも同様のことがありますか?
私は、ユニット正規化または非正規化のドキュメントベクトルのいずれかがクラスタリングに適していることを意味する推論や研究の前例に精通していません。
だから、私は両方を試して、どちらがあなたの目的に適しているように見えるかを確認します。
他の考え:
でWord2Vec
、私の一般的な印象は、より大きな単語ベクトルは、トレーニングデータでは、より明確な意味を持つ単語に関連付けられているということです。(つまり、それらは確実に隣接する単語の同じ小さなセットを意味する傾向があります。)一方、他の多くの多様な単語の中で複数の意味(多義性)と使用法を持つ単語は、より小さな大きさのベクトルを持つ傾向があります。
それでも、そのようなベクトルを比較する一般的な方法であるコサイン類似度は、大きさに気づきません。これは、ほとんどの比較で、「意味の統一」を示す微妙な指標がなく、単語の最高の意味が必要なためと考えられます。
同様の効果がDoc2Vec
ベクトルにも存在する可能性があります。マグニチュードの小さいdoc-vectorは、ドキュメントの単語使用量/主題がより広いことを示唆している可能性がありますが、マグニチュードの高いdoc-vectorは、より焦点を絞ったドキュメントを示します。(私も同様にすることを予感があるだろう長い文書を持っている傾向があり、低振幅の言葉/トピックを持っていることの狭いセットで小さなドキュメントのに対し、彼らは言葉のより大きな多様性を使用しているため、ドキュメントベクトルを高マグニチュードDOC-ベクトル。しかし、私はこの予感を具体的に観察/テストしていません。ここでの影響は、トレーニングの反復回数など、他のトレーニングの選択によって大きく影響を受ける可能性があります。)
したがって、正規化されていないベクトルは、フォーカスされたドキュメントをより一般的なドキュメントから分離するなど、いくつかのクラスタリングの目標にとって興味深いものになる可能性があります。繰り返しになりますが、この長い分析の後、両方の方法を試して、どちらかが特定のニーズに適しているかどうかを確認することをお勧めします。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加