我正在准备一个已经训练过的word2vec模型。我已将其序列化为CSV文件:
word, v0, v1, ..., vN
house, 0.1234, 0.4567, ..., 0.3461
car, 0.456, 0.677, ..., 0.3461
我想知道的是如何加载单词矢量模型gensim
并将其用于训练段落或doc2vec模型。
这个Doc2Vec教程说我可以以“ # C text format
”的形式加载模型,但是我不知道这实际上意味着什么。首先是什么“ C文本格式”,但更重要的是:
如何从word2vec模型构建词汇表?
Doc2Vec不需要单词向量作为输入:它将创建自己训练期间需要的任何单词向量。(还有一些模式,例如纯DBOW – dm=0, dbow_words=0
–根本不使用或训练单词向量。)
使用单词向量播种Doc2Vec模型可能会有所帮助或受到伤害;没有太多理论或已发表的结果可以提供指导。在Word2Vec上有一种实验方法intersect_word2vec_format()
,可以将word2vec-c格式的矢量合并到具有现有词汇表的模型中,但是您需要查看源代码才能真正理解其假设:
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句