すでにトレーニングしたword2vecモデルをすぐに使用できます。私はそれをCSVファイルとしてシリアル化しました:
word, v0, v1, ..., vN
house, 0.1234, 0.4567, ..., 0.3461
car, 0.456, 0.677, ..., 0.3461
私が知りたいのは、その単語ベクトルモデルをロードし、gensim
それを使用して段落またはdoc2vecモデルをトレーニングする方法です。
このDoc2Vecチュートリアルでは、モデルを「# C text format
」の形式でロードできると書かれていますが、それが実際に何を意味するのかわかりません。そもそも「Cテキスト形式」とは何ですか、しかしもっと重要なのは:
word2vecモデルから語彙を構築するにはどうすればよいですか?
Doc2Vecは、入力として単語ベクトルを必要としません。独自のトレーニング中に必要な単語ベクトルを作成します。(そして、純粋なDBOWのようないくつかのモード– dm=0, dbow_words=0
–単語ベクトルをまったく使用またはトレーニングしません。)
Doc2Vecモデルに単語ベクトルをシードすると、助けになるか、傷つく可能性があります。ガイダンスを提供する理論や公表された結果はあまりありません。Word2Vecにはintersect_word2vec_format()
、word2vec-c形式のベクトルを既存の語彙を持つモデルにマージできる実験的な方法がありますが、その仮定を実際に理解するには、ソースを確認する必要があります。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加