Doc2Vecモデルは、ドキュメントタグをシンボルに分割します

debugcn 投稿 Dev

rvnbrg

私はを使用していgensim 3.0.1ます。

TaggedDocumentフォームの一意のラベルが付いたリストがありますが、"label_17"Doc2Vecモデルをトレーニングすると、ラベルがシンボルに分割されるため、の出力model.docvecs.doctagsは次のようになります。

{'0': Doctag(offset=5, word_count=378, doc_count=40),
 '1': Doctag(offset=6, word_count=1330, doc_count=141),
 '2': Doctag(offset=7, word_count=413, doc_count=50),
 '3': Doctag(offset=8, word_count=365, doc_count=41),
 '4': Doctag(offset=9, word_count=395, doc_count=41),
 '5': Doctag(offset=10, word_count=420, doc_count=41),
 '6': Doctag(offset=11, word_count=408, doc_count=41),
 '7': Doctag(offset=12, word_count=426, doc_count=41),
 '8': Doctag(offset=13, word_count=385, doc_count=41),
 '9': Doctag(offset=14, word_count=376, doc_count=40),
 '_': Doctag(offset=4, word_count=2009, doc_count=209),
 'a': Doctag(offset=1, word_count=2009, doc_count=209),
 'b': Doctag(offset=2, word_count=2009, doc_count=209),
 'e': Doctag(offset=3, word_count=2009, doc_count=209),
 'l': Doctag(offset=0, word_count=4018, doc_count=418)}

ただし、タグ付きドキュメントの最初のリストでは、各ドキュメントに固有のラベルがあります。

モデルトレーニングのコードは次のとおりです。

model = Doc2Vec(size=300, sample=1e-4, workers=2)
print('Building Vocabulary')
model.build_vocab(data)
print('Training...')
model.train(data, total_words=total_words_count, epochs=20)

したがって、のようにドキュメントにインデックスを付けてmodel.docvecs['label_17']取得することはできませんKeyError。

語彙を構築する代わりにコンストラクターにデータを渡す場合も同じです。

なんでこんなことが起こっているの？ありがとう。

ゴジョモ

Doc2Vecテキストの例、形状のオブジェクトには、タグのリストでTaggedDocumentあるtagsプロパティが含まれている必要があります。

代わりにのような文字列を指定すると、'label_17'実際には*list-of-characters*, so it's essentially saying thatTaggedDocument`にタグがあります。

['l', 'a', 'b', 'e', 'l', '_', '1', '7']

tagsたとえばtags=['label_17']、必ず1つのタグのリストを作成してください。そうすれば、期待どおりのトレーニング済みタグの結果が表示されるはずです。

別に：それぞれ約10語の約200のドキュメントがあるようです。注Word2Vec/Doc2Vec良い結果を得るには、大きくて多様なデータセットが必要です。特に、200のテキストだけで300のベクトル次元の場合、トレーニングは、トレーニングセットの特異性を記憶するだけで、トレーニングタスク（内部単語予測）で非常にうまくいく可能性があります。これは、本質的に「過剰適合」であり、結果として生じません。距離/配置が他の例に転送される一般化可能な知識を表すベクトル。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-08-5

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

Doc2Vecモデルは、ドキュメントタグをシンボルに分割します

Doc2Vecモデルは、ドキュメントタグをシンボルに分割します

Doc2Vec最も類似したドキュメントを入手する

Doc2Vecモデルのトレーニングを続ける

gensim 0.11.1のDoc2Vecからドキュメントベクトルを取得するにはどうすればよいですか？

Doc2Vec：文とドキュメントを区別する

doc2Vecモデルをトレーニングするには、実際にどのくらいのデータが必要ですか？

Doc2vecは、2つのドキュメントベクトルではなく、1つのドキュメントのみのデータを出力します。

Doc2Vecモデルのトレーニング後の精度が低い

gensim doc2vecは、事前にトレーニングされたモデルからより多くのドキュメントをトレーニングします

Gensim doc2vecモデルをプレーンテキスト（.txt）として保存する方法はありますか？

gensim：Googleの事前トレーニング済みword2vecモデルをロードすると、「Doc2Vec」オブジェクトに属性「intersect_word2vec_format」がありません

doc2vecとのドキュメントの類似性

Gensim Doc2vecモデル：事前にトレーニングされたdoc2vecモデルを使用して取得されたコーパスの類似性を計算する方法は？

Genisim doc2vec：短いドキュメントはどのように処理されますか？

Doc2Vecを使用して2つのドキュメント間の類似性を測定します

Python word2vec、doc2vecを使用して2つのドキュメント間の類似性を計算する

新しいドキュメントのためのkmeansを使用したDoc2Vecクラスタリング

wikicorpusでトレーニングされたdoc2vecモデルからの新しい文

クラスタリングのためにDoc2Vecのドキュメント出力ベクトルを正規化しない理由はありますか？

doc2vecの元のドキュメントに単語をさかのぼることは可能ですか？

Doc2vecモデルの精度を測定する方法は？

Doc2VecモデルのDBSCANクラスタリングのプロット

gensimの事前トレーニング済みモデルをdoc2vecモデルに使用できますか？

事前にトレーニングされたモデルをgensimにロードし、それを使用してdoc2vecをトレーニングするにはどうすればよいですか？

Gensim: 事前トレーニング済みの doc2vec モデルのロード中にエラーが発生しましたか?

doc2vec: 推論されたドキュメントからドキュメントをプルする

doc2vecの階層トレーニング：同じドキュメントの文に同じラベルを割り当てるとどのように機能しますか？

doc2vecモデルで事前トレーニングされたword2vecベクトルを使用する方法は？

doc2vecモデルを使用して、ドキュメントと比較した1つの単語またはいくつかの単語の類似性を計算するにはどうすればよいですか？

doc2vecモデル全体からの単語ベクトルと特定のドキュメントからの単語ベクトル