Gensim Doc2Vec 培训

溢出玻璃

我正在使用分配给特定人员的文档gensim来训练Doc2Vec模型。有1000万份文件和8000人。我不在乎所有 8,000 人。我关心特定的一群人(比如从 1 到 500 的任何地方)。

我感兴趣的人可能每天都在变化,但我永远不需要查看全部人口。最终目标是获得我感兴趣的人的结果向量。我目前每次都在分配给特定人的文档上训练模型。

我应该在所有 1000 万份文档上训练模型吗?或者我应该只在分配给我感兴趣的人的文档上训练模型?如果在所有 1000 万份文档上训练它很重要,那么我将如何只为我感兴趣的人获取向量?

武马沙

对所有 1000 万个文档进行训练是一个好主意,这将帮助您捕捉单词的一般本质,而不仅仅是在您感兴趣的作者的上下文中。此外,如果集合您感兴趣的作者,明天更改。

如果您认为 Doc2Vec 需要很多时间,您也可以使用Fasttext来学习 WordEmbeddings 并使用词向量的简单平均或 TF-IDF 加权平均来构建您的 DocumentVector。您可以利用 Fasttext 中分层 softmax(损失函数)的强大功能,将您的训练时间减少 1000 多倍。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用doc2vec gensim进行二进制文本分类的最佳培训方法

来自分类Dev

gensim word2vec的培训时间

来自分类Dev

提高DOC2VEC Gensim效率

来自分类Dev

Doc2Vec和PySpark:通过DeepDist的Gensim Doc2vec

来自分类Dev

如何从gensim Doc2Vec获取单词向量?

来自分类Dev

无法使用gensim加载Doc2vec对象

来自分类Dev

与Gensim Doc2Vec最不相似

来自分类Dev

找不到ID的gensim doc2vec文件

来自分类Dev

gensim Doc2Vec:从 txt 文件到 TaggedDocuments

来自分类Dev

gensim doc2vec 嵌入向量的差异

来自分类Dev

Gensim word2vec培训不会在批次结束时回调

来自分类Dev

Gensim 的 Doc2vec 中的 Index2word 引发属性错误

来自分类Dev

如何在gensim中加载预训练模型并对其进行训练doc2vec?

来自分类Dev

Gensim的Doc2Vec most_like文档结果集中是否有限制?

来自分类Dev

是否可以使用gensim doc2vec进行分类

来自分类Dev

为什么Gensim doc2vec给出AttributeError:'list'对象没有属性'words'?

来自分类Dev

如何在gensim 0.11.1中从Doc2Vec获取文档向量?

来自分类Dev

为什么Gensim Doc2vec对象返回空的doctag?

来自分类Dev

gensim预训练的模型可以用于doc2vec模型吗?

来自分类Dev

是否可以使用gensim doc2vec进行分类

来自分类Dev

如何在gensim中加载预训练模型并对其进行训练doc2vec?

来自分类Dev

Gensim:加载预训练的 doc2vec 模型时出错?

来自分类Dev

Gensim Doc2vec 模型聚类成 K-means

来自分类Dev

为什么在训练 gensim doc2vec 时使用 TaggedBrownCorpus

来自分类Dev

我可以使用 gensim word2vec 或 doc2vec 两次构建 vocaburay 吗?

来自分类Dev

即使在培训期间将min_count设置为1,Doc2Vec模型中的KeyError

来自分类Dev

为什么gensim Doc2Vec为同一句子提供不同的向量?

来自分类Dev

看不见的单词的Gensim Doc2Vec infer_vector取决于这些单词中的字符

来自分类Dev

可以使用 gensim Doc2Vec 将新文档与经过训练的模型进行比较吗?

Related 相关文章

  1. 1

    使用doc2vec gensim进行二进制文本分类的最佳培训方法

  2. 2

    gensim word2vec的培训时间

  3. 3

    提高DOC2VEC Gensim效率

  4. 4

    Doc2Vec和PySpark:通过DeepDist的Gensim Doc2vec

  5. 5

    如何从gensim Doc2Vec获取单词向量?

  6. 6

    无法使用gensim加载Doc2vec对象

  7. 7

    与Gensim Doc2Vec最不相似

  8. 8

    找不到ID的gensim doc2vec文件

  9. 9

    gensim Doc2Vec:从 txt 文件到 TaggedDocuments

  10. 10

    gensim doc2vec 嵌入向量的差异

  11. 11

    Gensim word2vec培训不会在批次结束时回调

  12. 12

    Gensim 的 Doc2vec 中的 Index2word 引发属性错误

  13. 13

    如何在gensim中加载预训练模型并对其进行训练doc2vec?

  14. 14

    Gensim的Doc2Vec most_like文档结果集中是否有限制?

  15. 15

    是否可以使用gensim doc2vec进行分类

  16. 16

    为什么Gensim doc2vec给出AttributeError:'list'对象没有属性'words'?

  17. 17

    如何在gensim 0.11.1中从Doc2Vec获取文档向量?

  18. 18

    为什么Gensim Doc2vec对象返回空的doctag?

  19. 19

    gensim预训练的模型可以用于doc2vec模型吗?

  20. 20

    是否可以使用gensim doc2vec进行分类

  21. 21

    如何在gensim中加载预训练模型并对其进行训练doc2vec?

  22. 22

    Gensim:加载预训练的 doc2vec 模型时出错?

  23. 23

    Gensim Doc2vec 模型聚类成 K-means

  24. 24

    为什么在训练 gensim doc2vec 时使用 TaggedBrownCorpus

  25. 25

    我可以使用 gensim word2vec 或 doc2vec 两次构建 vocaburay 吗?

  26. 26

    即使在培训期间将min_count设置为1,Doc2Vec模型中的KeyError

  27. 27

    为什么gensim Doc2Vec为同一句子提供不同的向量?

  28. 28

    看不见的单词的Gensim Doc2Vec infer_vector取决于这些单词中的字符

  29. 29

    可以使用 gensim Doc2Vec 将新文档与经过训练的模型进行比较吗?

热门标签

归档