如何使用gensim load_word2vec_format加载预先训练的手套模型?

Arsalan

我正在尝试将预训练的手套作为gensim中的word2vec模型加载。我已经从这里下载了手套文件我正在使用以下脚本:

from gensim import models
model = models.KeyedVectors.load_word2vec_format('glove.6B.300d.txt', binary=True)

但出现以下错误

ValueError                                Traceback (most recent call last)
<ipython-input-38-e0b48b51f433> in <module>()
      1 from gensim import models
----> 2 model = models.KeyedVectors.load_word2vec_format('glove.6B.300d.txt', binary=True)

2 frames
/usr/local/lib/python3.6/dist-packages/gensim/models/utils_any2vec.py in <genexpr>(.0)
    171     with utils.smart_open(fname) as fin:
    172         header = utils.to_unicode(fin.readline(), encoding=encoding)
--> 173         vocab_size, vector_size = (int(x) for x in header.split())  # throws for invalid file format
    174         if limit:
    175             vocab_size = min(vocab_size, limit)

ValueError: invalid literal for int() with base 10: 'the'

潜在的问题是什么?gensim是否需要特定格式才能加载它?

五条魔

GLoVe格式与支持的格式略有不同-缺少向量计数和维的第一行声明load_word2vec_format()

其中glove2word2vec包含一个实用程序脚本,您可以运行一次以转换文件:

https://radimrehurek.com/gensim/scripts/glove2word2vec.html

同样,从Gensim 4.0.0(当前在预发行版测试中)开始,该load_word2vec_format()方法将获得一个新的可选no_header参数:

https://radimrehurek.com/gensim/models/keyedvectors.html?highlight=load_word2vec_format#gensim.models.keyedvectors.KeyedVectors.load_word2vec_format

如果设置为no_header=True,则该方法将从文件的初步扫描中得出计数/尺寸-因此它可以使用该选项读取GLoVe文件-但以两次读取完整文件而不是一次读取为代价。(因此,您可能仍想使用来重新保存对象.save_word2vec_format(),或使用glove2word2vec脚本来使以后的加载更快。)

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Python Gensim:如何使用LDA模型计算文档相似度?

来自分类Dev

Gensim word2vec增强或合并预训练向量

来自分类Dev

如何检查word2vec训练模型中是否存在密钥

来自分类Dev

如何在gensim中加载预训练模型并对其进行训练doc2vec?

来自分类Dev

如何从gensim Doc2Vec获取单词向量?

来自分类Dev

如何另存为gensim word2vec文件?

来自分类Dev

如何手动将单词和向量添加到Word2vec gensim?

来自分类Dev

如何用新词汇逐步训练word2vec模型

来自分类Dev

使用gensim加载经过训练的快速文本模型时出现问题

来自分类Dev

如何使用gensim加载中文快速文本模型?

来自分类Dev

如何从第一解决方案初始化第二手套模型?

来自分类Dev

无法使用gensim加载Doc2vec对象

来自分类Dev

加载word2vec(gensim)时如何解决开漏键错误?

来自分类Dev

使用烧瓶和Gunicorn在生产中加载预训练的手套

来自分类Dev

如何在自训练的word2vec模型中删除单词

来自分类Dev

如何实现视图之间的手套滑动过渡?

来自分类Dev

如何在gensim中加载预训练模型并对其进行训练doc2vec?

来自分类Dev

如何使用训练有素的GloVe / word2vec模型从文章中提取关键字?

来自分类Dev

手套如何调整图像尺寸?

来自分类Dev

Gensim:加载预训练的 doc2vec 模型时出错?

来自分类Dev

Gensim Word2Vec 使用太多内存

来自分类Dev

为什么在训练 gensim doc2vec 时使用 TaggedBrownCorpus

来自分类Dev

无法加载已保存的 gensim word2vec 模型

来自分类Dev

如何在 doc2vec 模型中使用预训练的 word2vec 向量?

来自分类Dev

使用 Gensim 训练 Word2vec 模型

来自分类Dev

gensim Word2Vec - 如何应用随机梯度下降?

来自分类Dev

训练 gensim word2vec 模型后单词不在词汇表中,为什么?

来自分类Dev

如何使用 Gensim 上的预训练模型对单词和短语进行聚类

来自分类Dev

可以使用 gensim Doc2Vec 将新文档与经过训练的模型进行比较吗?

Related 相关文章

  1. 1

    Python Gensim:如何使用LDA模型计算文档相似度?

  2. 2

    Gensim word2vec增强或合并预训练向量

  3. 3

    如何检查word2vec训练模型中是否存在密钥

  4. 4

    如何在gensim中加载预训练模型并对其进行训练doc2vec?

  5. 5

    如何从gensim Doc2Vec获取单词向量?

  6. 6

    如何另存为gensim word2vec文件?

  7. 7

    如何手动将单词和向量添加到Word2vec gensim?

  8. 8

    如何用新词汇逐步训练word2vec模型

  9. 9

    使用gensim加载经过训练的快速文本模型时出现问题

  10. 10

    如何使用gensim加载中文快速文本模型?

  11. 11

    如何从第一解决方案初始化第二手套模型?

  12. 12

    无法使用gensim加载Doc2vec对象

  13. 13

    加载word2vec(gensim)时如何解决开漏键错误?

  14. 14

    使用烧瓶和Gunicorn在生产中加载预训练的手套

  15. 15

    如何在自训练的word2vec模型中删除单词

  16. 16

    如何实现视图之间的手套滑动过渡?

  17. 17

    如何在gensim中加载预训练模型并对其进行训练doc2vec?

  18. 18

    如何使用训练有素的GloVe / word2vec模型从文章中提取关键字?

  19. 19

    手套如何调整图像尺寸?

  20. 20

    Gensim:加载预训练的 doc2vec 模型时出错?

  21. 21

    Gensim Word2Vec 使用太多内存

  22. 22

    为什么在训练 gensim doc2vec 时使用 TaggedBrownCorpus

  23. 23

    无法加载已保存的 gensim word2vec 模型

  24. 24

    如何在 doc2vec 模型中使用预训练的 word2vec 向量?

  25. 25

    使用 Gensim 训练 Word2vec 模型

  26. 26

    gensim Word2Vec - 如何应用随机梯度下降?

  27. 27

    训练 gensim word2vec 模型后单词不在词汇表中,为什么?

  28. 28

    如何使用 Gensim 上的预训练模型对单词和短语进行聚类

  29. 29

    可以使用 gensim Doc2Vec 将新文档与经过训练的模型进行比较吗?

热门标签

归档