Gensim word2vecで1文字の語彙を取得するのはなぜですか?

user8510273

私は次のようにword2vecモデルを構築しています。

from gensim.models import word2vec, Phrases
documents = ["the mayor of new york was there", "human computer interaction and machine learning has now become a trending research area","human computer interaction is interesting","human computer interaction is a pretty interesting subject", "human computer interaction is a great and new subject", "machine learning can be useful sometimes","new york mayor was present", "I love machine learning because it is a new subject area", "human computer interaction helps people to get user friendly applications"]
sentence_stream = [doc.split(" ") for doc in documents]

bigram = Phrases(sentence_stream, min_count=1, delimiter=b' ')
trigram = Phrases(bigram[sentence_stream], min_count=1, delimiter=b' ')

for sent in sentence_stream:
    bigrams_ = bigram[sent]
    trigrams_ = trigram[bigram[sent]]

    print(bigrams_)
    print(trigrams_)


# Set values for various parameters
num_features = 10    # Word vector dimensionality                      
min_word_count = 1   # Minimum word count                        
num_workers = 4       # Number of threads to run in parallel
context = 5          # Context window size                                                                                    
downsampling = 1e-3   # Downsample setting for frequent words


model = word2vec.Word2Vec(trigrams_, workers=num_workers, \
            size=num_features, min_count = min_word_count, \
            window = context, sample = downsampling)

vocab = list(model.wv.vocab.keys())
print(vocab[:10])

ただし、モデルの語彙に対して取得する出力は、次のように1文字です。

['h', 'u', 'm', 'a', 'n', ' ', 'c', 'o', 'p', 't']

バイグラムとトリグラムを正しく取得しています。したがって、コードを間違った場所で混乱しているだけです。何が問題なのか教えてください。

user8510273

これで私の問題は解決しました。次のように、リストのリストをword2vecモデルに渡す必要があります。

trigram_sentences_project = []


bigram = Phrases(sentence_stream, min_count=1, delimiter=b' ')
trigram = Phrases(bigram[sentence_stream], min_count=1, delimiter=b' ')


for sent in sentence_stream:
    #bigrams_ = [b for b in bigram[sent] if b.count(' ') == 1]
    #trigrams_ = [t for t in trigram[bigram[sent]] if t.count(' ') == 2]
    bigrams_ = bigram[sent]
    trigrams_ = trigram[bigram[sent]]
    trigram_sentences_project.append(trigrams_)

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

gensim word2vecから語彙の単語数を取得するにはどうすればよいですか?

分類Dev

gensim word2vec:語彙の単語数を見つける

分類Dev

Gensim:Word2Vec形式で単語の頻度を取得するチャンスはありますか?

分類Dev

Python3のGensim word2vecに語彙がない

分類Dev

gensim word2vecで複数のモデルファイルが作成されるのはなぜですか?

分類Dev

Pythonでgensimのword2vecモデルを使用して文の類似性を計算する方法

分類Dev

gensimのWord2Vecをカスタムの単語とコンテキストのペアで使用する

分類Dev

gensim word2Vecから重み行列を取得する

分類Dev

厄介なベクトルを返すGensimのword2vec

分類Dev

numpy.ndarrayでキーと値のペアを取得するにはどうすればよいですか?(Gensim Word2vec)

分類Dev

gensim word2vecから行列WIとWOを抽出するにはどうすればよいですか?

分類Dev

文脈を調べるとき、gensimからのword2vecの実現は文レベルを超えていますか?

分類Dev

word2vecベクトル[gensimライブラリ]の「サイズ」の意味は何ですか?

分類Dev

gensim word2vecまたはdoc2vecを使用してvocaburayを2回ビルドできますか?

分類Dev

Word2vec gensimに単語とベクターを手動で追加するにはどうすればよいですか?

分類Dev

AttributeErrorを取得せずにGensimでWord2vecをロードするにはどうすればよいですか?

分類Dev

gensimでword2vec2tensorを使用する方法は?

分類Dev

word2vecまたはGloveに単語を追加する(おそらくgensimを使用する)

分類Dev

spacyでは、gensimで作成された独自のword2vecモデルをどのように使用しますか?

分類Dev

gensimが同じデータでの異なる実行に対して同じWord2Vecモデルを生成することを確認します

分類Dev

Gensim Doc2vecオブジェクトが空のdoctagを返すのはなぜですか?

分類Dev

gensim word2vecの出力埋め込み(出力ベクトル)にアクセスするにはどうすればよいですか?

分類Dev

Gensim Word2vecモデルの読み込み時間を短縮する方法は?

分類Dev

gensimから生成されたword2vecを視覚化する

分類Dev

gensim Word2VecモデルをFastTextモデルに変換する方法は?

分類Dev

Gensim Word2VecがCコンパイラを使用しているかどうかを確認するにはどうすればよいですか?

分類Dev

Gensim word2vecモデルは1000次元のndarrayを出力しますが、ndarray次元の最大数は32です-どのように?

分類Dev

gensim.word2vecの2つのbag-of-words間の類似性がこのように計算されたのはなぜですか?

分類Dev

gensimを使用して制約された語彙からコーパス内の単語を除外するにはどうすればよいですか?

Related 関連記事

  1. 1

    gensim word2vecから語彙の単語数を取得するにはどうすればよいですか?

  2. 2

    gensim word2vec:語彙の単語数を見つける

  3. 3

    Gensim:Word2Vec形式で単語の頻度を取得するチャンスはありますか?

  4. 4

    Python3のGensim word2vecに語彙がない

  5. 5

    gensim word2vecで複数のモデルファイルが作成されるのはなぜですか?

  6. 6

    Pythonでgensimのword2vecモデルを使用して文の類似性を計算する方法

  7. 7

    gensimのWord2Vecをカスタムの単語とコンテキストのペアで使用する

  8. 8

    gensim word2Vecから重み行列を取得する

  9. 9

    厄介なベクトルを返すGensimのword2vec

  10. 10

    numpy.ndarrayでキーと値のペアを取得するにはどうすればよいですか?(Gensim Word2vec)

  11. 11

    gensim word2vecから行列WIとWOを抽出するにはどうすればよいですか?

  12. 12

    文脈を調べるとき、gensimからのword2vecの実現は文レベルを超えていますか?

  13. 13

    word2vecベクトル[gensimライブラリ]の「サイズ」の意味は何ですか?

  14. 14

    gensim word2vecまたはdoc2vecを使用してvocaburayを2回ビルドできますか?

  15. 15

    Word2vec gensimに単語とベクターを手動で追加するにはどうすればよいですか?

  16. 16

    AttributeErrorを取得せずにGensimでWord2vecをロードするにはどうすればよいですか?

  17. 17

    gensimでword2vec2tensorを使用する方法は?

  18. 18

    word2vecまたはGloveに単語を追加する(おそらくgensimを使用する)

  19. 19

    spacyでは、gensimで作成された独自のword2vecモデルをどのように使用しますか?

  20. 20

    gensimが同じデータでの異なる実行に対して同じWord2Vecモデルを生成することを確認します

  21. 21

    Gensim Doc2vecオブジェクトが空のdoctagを返すのはなぜですか?

  22. 22

    gensim word2vecの出力埋め込み(出力ベクトル)にアクセスするにはどうすればよいですか?

  23. 23

    Gensim Word2vecモデルの読み込み時間を短縮する方法は?

  24. 24

    gensimから生成されたword2vecを視覚化する

  25. 25

    gensim Word2VecモデルをFastTextモデルに変換する方法は?

  26. 26

    Gensim Word2VecがCコンパイラを使用しているかどうかを確認するにはどうすればよいですか?

  27. 27

    Gensim word2vecモデルは1000次元のndarrayを出力しますが、ndarray次元の最大数は32です-どのように?

  28. 28

    gensim.word2vecの2つのbag-of-words間の類似性がこのように計算されたのはなぜですか?

  29. 29

    gensimを使用して制約された語彙からコーパス内の単語を除外するにはどうすればよいですか?

ホットタグ

アーカイブ