gensimのDoc2Vecモデルをデフォルトのword2vecトレーニング(dm = 1)でトレーニングしました。model.wv.vectorsのグローバルモデルから単語ベクトルを取得できます。しかし、ドキュメントには、同じ単語(例では「葉」)は、それが表示されるドキュメントのコンテキストに応じて同じベクトルを持たないと書かれています。
だから私は少し混乱しています:model.wv.vectorsでは、例として「葉」という単語は、モデルのトレーニングに使用されるすべてのドキュメントに対して同じベクトルを持ちます(これは、ドキュメントから理解していることと矛盾する可能性があります) )?そうでない場合、特定のドキュメントから単語ベクトルを取得する方法は?
そのドキュメントは誤解を招く可能性があります。単語トークンに'leaves'
は、そのモデルに1つの単語ベクトルしかありません。
そのコメントの作者は、PV-DMモードでのモデルトレーニング中に()、トレーニング予測が単語ベクトルとそのための「フローティング」ドキュメントベクトルの組み合わせによって影響を受けることを意味したのではないかと推測dm=1
しています。テキスト(およびコンテキストウィンドウ内の他の隣接する単語ベクトル)。しかし、それでも、1つの単語には1つのベクトルしかなく、そこでの説明は混乱しています。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加