新しい語彙でword2vecモデルを段階的にトレーニングする方法

debugcn 投稿 Dev

シルイ・リー

40Gを超えるデータセットを取得しました。メモリが限られているため、トークナイザーのプログラムが強制終了されたため、データセットを分割しようとしています。word2vecモデルを段階的にトレーニングするにはどうすればよいですか。つまり、個別のデータセットを使用して1つのword2vecモデルをトレーニングするにはどうすればよいですか。

私の現在のword2vecコードは次のとおりです。

model = gensim.models.Word2Vec(documents, size=150, window=10, min_count=1, workers=10)
model.train(documents,total_examples=len(documents),epochs=epochs)
model.save("./word2vec150d/word2vec_{}.model".format(epochs))

どんな助けでもいただければ幸いです！

シルイ・リー

私は解決策を見つけました：を使用してくださいPathLineSentences。とても速いです。word2vecモデルを段階的にトレーニングしても、新しい語彙を学習することはできませんが、学習することはPathLineSentencesできます。

from gensim.models.word2vec import PathLineSentences

model = Word2Vec(PathLineSentences(input_dir), size=100, window=5, min_count=5, workers=multiprocessing.cpu_count() * 2, iter=20,sg=1)

単一ファイルの場合は、を使用しますLineSentences。

from gensim.models.word2vec import LineSentence

model = Word2Vec(LineSentence(file), size=100, window=5, min_count=5, workers=multiprocessing.cpu_count() * 2, iter=20,sg=1)
...

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-12

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

新しい語彙でword2vecモデルを段階的にトレーニングする方法

新しい語彙でword2vecモデルを段階的にトレーニングする方法

TensorFlowで事前トレーニング済みの単語埋め込み（word2vecまたはGlove）を使用する

非常に大きなデータセットでWord2vecをトレーニングする方法は？

word2vecトレーニング済みモデルにキーが存在するかどうかを確認する方法

Word2Vecで事前トレーニング済みモデルをマージしますか？

ワトソン自然言語分類器を段階的にトレーニングする方法は？

事前にトレーニングされたWord2vecモデルファイルをロードして再利用するにはどうすればよいですか？

Word2Vecモデルから単語頻度を取得する方法

ウィキペディアで事前トレーニングされたWord2Vecモデルを使用する

pyspark word2vecモデルから単語リストを取得するにはどうすればよいですか？

事前にトレーニングされた単語ベクトルを使用してgensimword2vecモデルを作成するにはどうすればよいですか？

word2vecで各トレーニング反復後にベクトルを取得するにはどうすればよいですか？

Gensim Word2Vecは、事前にトレーニングされたモデルから単語ベクトルのマイナーセットを選択します

あなた自身の語彙でword2vecを訓練する方法

R H2Oグリッド検索：新しいデータでトップモデルをトレーニングする方法は？

gensim：Googleの事前トレーニング済みword2vecモデルをロードすると、「Doc2Vec」オブジェクトに属性「intersect_word2vec_format」がありません

word2vecの語彙にない単語を最適に処理する方法

sklearnモデル（SVMなど）を段階的にトレーニングすることは可能ですか？

訓練されたword2vecモデルの語彙から欠落している単語

Spacyで新しいモデルをトレーニングする

wikicorpusでトレーニングされたdoc2vecモデルからの新しい文

自己学習したword2vecモデルで単語を削除する方法

事前にトレーニングされたグローブモデルをgensimload_word2vec_formatでロードする方法は？

私がword2vecモデルをトレーニングするために使用するすべての単語は、model.vocabに含まれている必要がありますね。

トレーニング済みのGloVe / word2vecモデルを使用して、記事からキーワードを抽出するにはどうすればよいですか？

Kerasモデルを段階的にトレーニングできますか？

word2vecモデルを更新する際に、古いコーパスと新しいコーパスを混在させる必要がありますか？

別の言語でトレーニングされたWord2vecモデルの精度を測定する方法は？

doc2vecモデルで事前トレーニングされたword2vecベクトルを使用する方法は？

Gensimを使用してWord2vecモデルをトレーニングする