搜索

搜索

Gensim Doc2Vec 培训

debugcn 发表于 Dev

15

溢出玻璃

我正在使用分配给特定人员的文档gensim来训练Doc2Vec模型。有1000万份文件和8000人。我不在乎所有 8,000 人。我关心特定的一群人（比如从 1 到 500 的任何地方）。

我感兴趣的人可能每天都在变化，但我永远不需要查看全部人口。最终目标是获得我感兴趣的人的结果向量。我目前每次都在分配给特定人的文档上训练模型。

我应该在所有 1000 万份文档上训练模型吗？或者我应该只在分配给我感兴趣的人的文档上训练模型？如果在所有 1000 万份文档上训练它很重要，那么我将如何只为我感兴趣的人获取向量？

武马沙

对所有 1000 万个文档进行训练是一个好主意，这将帮助您捕捉单词的一般本质，而不仅仅是在您感兴趣的作者的上下文中。此外，如果集合您感兴趣的作者，明天更改。

如果您认为 Doc2Vec 需要很多时间，您也可以使用Fasttext来学习 WordEmbeddings 并使用词向量的简单平均或 TF-IDF 加权平均来构建您的 DocumentVector。您可以利用 Fasttext 中分层 softmax（损失函数）的强大功能，将您的训练时间减少 1000 多倍。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-17

0

我来说两句

0条评论

登录后参与评论

相关文章

来自分类Dev

使用doc2vec gensim进行二进制文本分类的最佳培训方法

来自分类Dev

gensim word2vec的培训时间

来自分类Dev

提高DOC2VEC Gensim效率

来自分类Dev

Doc2Vec和PySpark：通过DeepDist的Gensim Doc2vec

来自分类Dev

如何从gensim Doc2Vec获取单词向量？

来自分类Dev

无法使用gensim加载Doc2vec对象

来自分类Dev

与Gensim Doc2Vec最不相似

来自分类Dev

找不到ID的gensim doc2vec文件

来自分类Dev

gensim Doc2Vec：从 txt 文件到 TaggedDocuments

来自分类Dev

gensim doc2vec 嵌入向量的差异

来自分类Dev

Gensim word2vec培训不会在批次结束时回调

来自分类Dev

Gensim 的 Doc2vec 中的 Index2word 引发属性错误

来自分类Dev

如何在gensim中加载预训练模型并对其进行训练doc2vec？

来自分类Dev

Gensim的Doc2Vec most_like文档结果集中是否有限制？

来自分类Dev

是否可以使用gensim doc2vec进行分类

来自分类Dev

为什么Gensim doc2vec给出AttributeError：'list'对象没有属性'words'？

来自分类Dev

如何在gensim 0.11.1中从Doc2Vec获取文档向量？

来自分类Dev

为什么Gensim Doc2vec对象返回空的doctag？

来自分类Dev

gensim预训练的模型可以用于doc2vec模型吗？

来自分类Dev

是否可以使用gensim doc2vec进行分类

来自分类Dev

如何在gensim中加载预训练模型并对其进行训练doc2vec？

来自分类Dev

Gensim：加载预训练的 doc2vec 模型时出错？

来自分类Dev

Gensim Doc2vec 模型聚类成 K-means

来自分类Dev

为什么在训练 gensim doc2vec 时使用 TaggedBrownCorpus

来自分类Dev

我可以使用 gensim word2vec 或 doc2vec 两次构建 vocaburay 吗？

来自分类Dev

即使在培训期间将min_count设置为1，Doc2Vec模型中的KeyError

来自分类Dev

为什么gensim Doc2Vec为同一句子提供不同的向量？

来自分类Dev

看不见的单词的Gensim Doc2Vec infer_vector取决于这些单词中的字符

来自分类Dev

可以使用 gensim Doc2Vec 将新文档与经过训练的模型进行比较吗？

Related 相关文章

文章

热门标签

归档