事前にトレーニングされたモデルをgensimにロードし、それを使用してdoc2vecをトレーニングするにはどうすればよいですか？

debugcn 投稿 Dev

ステファンフォーク

すでにトレーニングしたword2vecモデルをすぐに使用できます。私はそれをCSVファイルとしてシリアル化しました：

word,  v0,     v1,     ..., vN
house, 0.1234, 0.4567, ..., 0.3461
car,   0.456,  0.677,  ..., 0.3461

私が知りたいのは、その単語ベクトルモデルをロードし、gensimそれを使用して段落またはdoc2vecモデルをトレーニングする方法です。

このDoc2Vecチュートリアルでは、モデルを「# C text format」の形式でロードできると書かれていますが、それが実際に何を意味するのかわかりません。そもそも「Cテキスト形式」とは何ですか、しかしもっと重要なのは：

word2vecモデルをロードしてdoc2vecトレーニングに使用するにはどうすればよいですか？

word2vecモデルから語彙を構築するにはどうすればよいですか？

ゴジョモ

Doc2Vecは、入力として単語ベクトルを必要としません。独自のトレーニング中に必要な単語ベクトルを作成します。（そして、純粋なDBOWのようないくつかのモード– dm=0, dbow_words=0–単語ベクトルをまったく使用またはトレーニングしません。）

Doc2Vecモデルに単語ベクトルをシードすると、助けになるか、傷つく可能性があります。ガイダンスを提供する理論や公表された結果はあまりありません。Word2Vecにはintersect_word2vec_format()、word2vec-c形式のベクトルを既存の語彙を持つモデルにマージできる実験的な方法がありますが、その仮定を実際に理解するには、ソースを確認する必要があります。

https://github.com/RaRe-Technologies/gensim/blob/51753b95415bbc344ea6af671818277464905ea2/gensim/models/word2vec.py#L1140

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-07-10

コメントを追加

サインイン

Related 関連記事

記事