Doc2Vecモデルは、ドキュメントタグをシンボルに分割します

rvnbrg

私はを使用していgensim 3.0.1ます。

TaggedDocumentフォームの一意のラベルが付いたリストがありますが"label_17"Doc2Vecモデルをトレーニングすると、ラベルがシンボルに分割されるため、の出力model.docvecs.doctagsは次のようになります。

{'0': Doctag(offset=5, word_count=378, doc_count=40),
 '1': Doctag(offset=6, word_count=1330, doc_count=141),
 '2': Doctag(offset=7, word_count=413, doc_count=50),
 '3': Doctag(offset=8, word_count=365, doc_count=41),
 '4': Doctag(offset=9, word_count=395, doc_count=41),
 '5': Doctag(offset=10, word_count=420, doc_count=41),
 '6': Doctag(offset=11, word_count=408, doc_count=41),
 '7': Doctag(offset=12, word_count=426, doc_count=41),
 '8': Doctag(offset=13, word_count=385, doc_count=41),
 '9': Doctag(offset=14, word_count=376, doc_count=40),
 '_': Doctag(offset=4, word_count=2009, doc_count=209),
 'a': Doctag(offset=1, word_count=2009, doc_count=209),
 'b': Doctag(offset=2, word_count=2009, doc_count=209),
 'e': Doctag(offset=3, word_count=2009, doc_count=209),
 'l': Doctag(offset=0, word_count=4018, doc_count=418)}

ただし、タグ付きドキュメントの最初のリストでは、各ドキュメントに固有のラベルがあります。

モデルトレーニングのコードは次のとおりです。

model = Doc2Vec(size=300, sample=1e-4, workers=2)
print('Building Vocabulary')
model.build_vocab(data)
print('Training...')
model.train(data, total_words=total_words_count, epochs=20)

したがって、のようにドキュメントにインデックスを付けてmodel.docvecs['label_17']取得することはできませKeyError

語彙を構築する代わりにコンストラクターにデータを渡す場合も同じです。

なんでこんなことが起こっているの?ありがとう。

ゴジョモ

Doc2Vecテキストの例、形状のオブジェクトには、タグのリストでTaggedDocumentあるtagsプロパティが含まれている必要があります

代わりにのような文字列を指定すると、'label_17'実際には*list-of-characters*, so it's essentially saying thatTaggedDocument`にタグがあります。

['l', 'a', 'b', 'e', 'l', '_', '1', '7']

tagsたとえばtags=['label_17']必ず1つのタグのリストを作成しください。そうすれば、期待どおりのトレーニング済みタグの結果が表示されるはずです。

別に:それぞれ約10語の約200のドキュメントがあるようです。Word2Vec/Doc2Vec良い結果を得るには、大きくて多様なデータセットが必要です。特に、200のテキストだけで300のベクトル次元の場合、トレーニングは、トレーニングセットの特異性を記憶するだけで、トレーニングタスク(内部単語予測)で非常にうまくいく可能性があります。これは、本質的に「過剰適合」であり、結果として生じません。距離/配置が他の例に転送される一般化可能な知識を表すベクトル。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

Doc2Vec最も類似したドキュメントを入手する

分類Dev

Doc2Vecモデルのトレーニングを続ける

分類Dev

gensim 0.11.1のDoc2Vecからドキュメントベクトルを取得するにはどうすればよいですか?

分類Dev

Doc2Vec:文とドキュメントを区別する

分類Dev

doc2Vecモデルをトレーニングするには、実際にどのくらいのデータが必要ですか?

分類Dev

Doc2vecは、2つのドキュメントベクトルではなく、1つのドキュメントのみのデータを出力します。

分類Dev

Doc2Vecモデルのトレーニング後の精度が低い

分類Dev

gensim doc2vecは、事前にトレーニングされたモデルからより多くのドキュメントをトレーニングします

分類Dev

Gensim doc2vecモデルをプレーンテキスト(.txt)として保存する方法はありますか?

分類Dev

gensim:Googleの事前トレーニング済みword2vecモデルをロードすると、「Doc2Vec」オブジェクトに属性「intersect_word2vec_format」がありません

分類Dev

doc2vecとのドキュメントの類似性

分類Dev

Gensim Doc2vecモデル:事前にトレーニングされたdoc2vecモデルを使用して取得されたコーパスの類似性を計算する方法は?

分類Dev

Genisim doc2vec:短いドキュメントはどのように処理されますか?

分類Dev

Doc2Vecを使用して2つのドキュメント間の類似性を測定します

分類Dev

Python word2vec、doc2vecを使用して2つのドキュメント間の類似性を計算する

分類Dev

新しいドキュメントのためのkmeansを使用したDoc2Vecクラスタリング

分類Dev

wikicorpusでトレーニングされたdoc2vecモデルからの新しい文

分類Dev

クラスタリングのためにDoc2Vecのドキュメント出力ベクトルを正規化しない理由はありますか?

分類Dev

doc2vecの元のドキュメントに単語をさかのぼることは可能ですか?

分類Dev

Doc2vecモデルの精度を測定する方法は?

分類Dev

Doc2VecモデルのDBSCANクラスタリングのプロット

分類Dev

gensimの事前トレーニング済みモデルをdoc2vecモデルに使用できますか?

分類Dev

事前にトレーニングされたモデルをgensimにロードし、それを使用してdoc2vecをトレーニングするにはどうすればよいですか?

分類Dev

Gensim: 事前トレーニング済みの doc2vec モデルのロード中にエラーが発生しましたか?

分類Dev

doc2vec: 推論されたドキュメントからドキュメントをプルする

分類Dev

doc2vecの階層トレーニング:同じドキュメントの文に同じラベルを割り当てるとどのように機能しますか?

分類Dev

doc2vecモデルで事前トレーニングされたword2vecベクトルを使用する方法は?

分類Dev

doc2vecモデルを使用して、ドキュメントと比較した1つの単語またはいくつかの単語の類似性を計算するにはどうすればよいですか?

分類Dev

doc2vecモデル全体からの単語ベクトルと特定のドキュメントからの単語ベクトル

Related 関連記事

  1. 1

    Doc2Vec最も類似したドキュメントを入手する

  2. 2

    Doc2Vecモデルのトレーニングを続ける

  3. 3

    gensim 0.11.1のDoc2Vecからドキュメントベクトルを取得するにはどうすればよいですか?

  4. 4

    Doc2Vec:文とドキュメントを区別する

  5. 5

    doc2Vecモデルをトレーニングするには、実際にどのくらいのデータが必要ですか?

  6. 6

    Doc2vecは、2つのドキュメントベクトルではなく、1つのドキュメントのみのデータを出力します。

  7. 7

    Doc2Vecモデルのトレーニング後の精度が低い

  8. 8

    gensim doc2vecは、事前にトレーニングされたモデルからより多くのドキュメントをトレーニングします

  9. 9

    Gensim doc2vecモデルをプレーンテキスト(.txt)として保存する方法はありますか?

  10. 10

    gensim:Googleの事前トレーニング済みword2vecモデルをロードすると、「Doc2Vec」オブジェクトに属性「intersect_word2vec_format」がありません

  11. 11

    doc2vecとのドキュメントの類似性

  12. 12

    Gensim Doc2vecモデル:事前にトレーニングされたdoc2vecモデルを使用して取得されたコーパスの類似性を計算する方法は?

  13. 13

    Genisim doc2vec:短いドキュメントはどのように処理されますか?

  14. 14

    Doc2Vecを使用して2つのドキュメント間の類似性を測定します

  15. 15

    Python word2vec、doc2vecを使用して2つのドキュメント間の類似性を計算する

  16. 16

    新しいドキュメントのためのkmeansを使用したDoc2Vecクラスタリング

  17. 17

    wikicorpusでトレーニングされたdoc2vecモデルからの新しい文

  18. 18

    クラスタリングのためにDoc2Vecのドキュメント出力ベクトルを正規化しない理由はありますか?

  19. 19

    doc2vecの元のドキュメントに単語をさかのぼることは可能ですか?

  20. 20

    Doc2vecモデルの精度を測定する方法は?

  21. 21

    Doc2VecモデルのDBSCANクラスタリングのプロット

  22. 22

    gensimの事前トレーニング済みモデルをdoc2vecモデルに使用できますか?

  23. 23

    事前にトレーニングされたモデルをgensimにロードし、それを使用してdoc2vecをトレーニングするにはどうすればよいですか?

  24. 24

    Gensim: 事前トレーニング済みの doc2vec モデルのロード中にエラーが発生しましたか?

  25. 25

    doc2vec: 推論されたドキュメントからドキュメントをプルする

  26. 26

    doc2vecの階層トレーニング:同じドキュメントの文に同じラベルを割り当てるとどのように機能しますか?

  27. 27

    doc2vecモデルで事前トレーニングされたword2vecベクトルを使用する方法は?

  28. 28

    doc2vecモデルを使用して、ドキュメントと比較した1つの単語またはいくつかの単語の類似性を計算するにはどうすればよいですか?

  29. 29

    doc2vecモデル全体からの単語ベクトルと特定のドキュメントからの単語ベクトル

ホットタグ

アーカイブ