我正在使用分配给特定人员的文档gensim
来训练Doc2Vec
模型。有1000万份文件和8000人。我不在乎所有 8,000 人。我关心特定的一群人(比如从 1 到 500 的任何地方)。
我感兴趣的人可能每天都在变化,但我永远不需要查看全部人口。最终目标是获得我感兴趣的人的结果向量。我目前每次都在分配给特定人的文档上训练模型。
我应该在所有 1000 万份文档上训练模型吗?或者我应该只在分配给我感兴趣的人的文档上训练模型?如果在所有 1000 万份文档上训练它很重要,那么我将如何只为我感兴趣的人获取向量?
对所有 1000 万个文档进行训练是一个好主意,这将帮助您捕捉单词的一般本质,而不仅仅是在您感兴趣的作者的上下文中。此外,如果集合您感兴趣的作者,明天更改。
如果您认为 Doc2Vec 需要很多时间,您也可以使用Fasttext来学习 WordEmbeddings 并使用词向量的简单平均或 TF-IDF 加权平均来构建您的 DocumentVector。您可以利用 Fasttext 中分层 softmax(损失函数)的强大功能,将您的训练时间减少 1000 多倍。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句