gensim doc2vecは、事前にトレーニングされたモデルからより多くのドキュメントをトレーニングします

アイザックはい

事前にトレーニングされたモデルを使用して、新しいラベル付きドキュメント(TaggedDocument)でトレーニングしようとしています。

事前トレーニング済みモデルは、label1_indexの一意のID(Good_0、Good_1〜Good_999など)を持つドキュメントを含むトレーニング済みモデルです。トレーニング済みデータの合計サイズは約7000です。

ここで、事前にトレーニングされたモデルを、label2_indexの一意のID(Bad_0、Bad_1 ...からBad_1211など)の新しいドキュメントでトレーニングしたいと思います。トレーニングされたデータの合計サイズは約1211です。

トレイン自体はエラーなしで成功しましたが、問題は、「most_similar」を使用しようとすると、Good _...というラベルの付いた同様のドキュメントのみが提案されることです。

最初から完全にトレーニングすると、期待した答えが得られます。これは、GoodまたはBadのラベルが付いたものと同様の新しく与えられたドキュメントを推測します。

ただし、上記の練習は、最初から完全に訓練されたものとしては機能しません。

継続列車がきちんと動かないのですか、それとも間違えましたか?

ゴジョモ

gensimDoc2Vecクラスにはtrain()を介していつでも追加の例を提供できますが、最初のbuild_vocab()ステップで単語トークンとドキュメントタグの両方の実用的な語彙を検出するだけです。したがって、の間に単語/タグが使用可能でない限りbuild_vocab()、後で不明として無視されます。(単語はテキストから静かに削除されます。タグはモデル内でトレーニングも記憶もされません。)

Word2VecそこからスーパークラスDoc2Vecの機能の多くを借りて、その上、新しい、より多くの実験的パラメータがあるbuild_vocab()と呼ばれるがupdatetrueに設定されている場合、その呼び出しbuild_vocab()は、以前の語彙を置き換えるのではなく、追加します。ただし、2018年2月の時点では、このオプションはまだ機能しておらずDoc2Vec、実際にメモリ障害のクラッシュを引き起こすことがよくあります。

しかし、それが機能するようになったとしても、段階的なトレーニングの例を提供することは必ずしも良い考えではありません。モデルの一部(新しい例で実行された部分)を更新するだけで、モデル全体が悪化したり、ベクトルの相互整合性が低下したりする可能性があります。(これらの密な埋め込みモデルの本質は、さまざまな例すべてを最適化すると、一般的に有用なベクトルが得られることです。一部のサブセットのみをトレーニングすると、モデルはそのサブセットだけで良好になり、以前の例にコストがかかる可能性があります。)

の結果の一部にもなる新しい例が必要な場合は、のmost_similar()外に独自の個別のベクトルのセットを作成することをお勧めしますDoc2Vec新しいテキストの新しいベクトルを推測するときは、それらをその外部セットに追加し、独自のベクトルを実装してmost_similar()(gensimコードをモデルとして使用)、作成された固定セットだけでなく、この拡張するベクトルのセットを検索できます。最初のバルクDoc2Vecトレーニングによる。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

事前にトレーニングされたモデルをgensimにロードし、それを使用してdoc2vecをトレーニングするにはどうすればよいですか?

分類Dev

Gensim Doc2vecモデル:事前にトレーニングされたdoc2vecモデルを使用して取得されたコーパスの類似性を計算する方法は?

分類Dev

Gensim: 事前トレーニング済みの doc2vec モデルのロード中にエラーが発生しましたか?

分類Dev

gensimの事前トレーニング済みモデルをdoc2vecモデルに使用できますか?

分類Dev

事前にトレーニングされたGensimフレーズモデルはありますか?

分類Dev

gensim:Googleの事前トレーニング済みword2vecモデルをロードすると、「Doc2Vec」オブジェクトに属性「intersect_word2vec_format」がありません

分類Dev

Gensim Word2Vecは、事前にトレーニングされたモデルから単語ベクトルのマイナーセットを選択します

分類Dev

GensimのWord2Vecは提供されたドキュメントをトレーニングしていません

分類Dev

gensimでDoc2vecをトレーニングするためにマルチコアCPUを効率的に使用することはできません

分類Dev

Gensim doc2vecモデルをプレーンテキスト(.txt)として保存する方法はありますか?

分類Dev

gensim 0.11.1のDoc2Vecからドキュメントベクトルを取得するにはどうすればよいですか?

分類Dev

事前にトレーニングされた埋め込みをgensimスキップグラムモデルに使用するにはどうすればよいですか?

分類Dev

Gensimを使用してWord2vecモデルをトレーニングする

分類Dev

gensimを使用したfasttextライブラリからの事前トレーニング済み単語埋め込みのメモリ効率的なロード

分類Dev

事前トレーニング済みのgensim Word2vec埋め込みをケラスに埋め込む

分類Dev

事前にトレーニングされたモデルを使用したgensimでは、wmdistanceは適切に機能していますが、n_similarityは機能していません

分類Dev

Gensim: LDA モデルをトレーニングできません

分類Dev

gensimから事前にトレーニングされたベクトルを使用したトーチ埋め込みレイヤーへの予想される入力

分類Dev

gensimを使用してトレーニング済みのファストテキストモデルをロードする際の問題

分類Dev

gensimライブラリを使用したトレーニング中のSkip-gramword2vecとCBOWw2vの違いは何ですか?

分類Dev

Gensimで作成されたカスタムトレーニング済み単語ベクトルをSpacyにロードするのに問題がある

分類Dev

複数のワーカーのサポートを受けて、gensimでword2vecをバッチトレーニングします

分類Dev

Python:gensim:RuntimeError:モデルをトレーニングする前に、まず語彙を構築する必要があります

分類Dev

Tensorflowでwordvecをトレーニングし、Gensimにインポートします

分類Dev

gensim Doc2Vecは、ポジティブコンテキストとネガティブコンテキストの同じ文を区別しますか?

分類Dev

初期値を使用したGensim単語埋め込みトレーニング

分類Dev

Gensim:「C拡張機能がロードされていません。トレーニングが遅くなります。」

分類Dev

PyTorch / Gensim-事前トレーニング済みの単語の埋め込みを読み込む方法

分類Dev

wikicorpusでトレーニングされたdoc2vecモデルからの新しい文

Related 関連記事

  1. 1

    事前にトレーニングされたモデルをgensimにロードし、それを使用してdoc2vecをトレーニングするにはどうすればよいですか?

  2. 2

    Gensim Doc2vecモデル:事前にトレーニングされたdoc2vecモデルを使用して取得されたコーパスの類似性を計算する方法は?

  3. 3

    Gensim: 事前トレーニング済みの doc2vec モデルのロード中にエラーが発生しましたか?

  4. 4

    gensimの事前トレーニング済みモデルをdoc2vecモデルに使用できますか?

  5. 5

    事前にトレーニングされたGensimフレーズモデルはありますか?

  6. 6

    gensim:Googleの事前トレーニング済みword2vecモデルをロードすると、「Doc2Vec」オブジェクトに属性「intersect_word2vec_format」がありません

  7. 7

    Gensim Word2Vecは、事前にトレーニングされたモデルから単語ベクトルのマイナーセットを選択します

  8. 8

    GensimのWord2Vecは提供されたドキュメントをトレーニングしていません

  9. 9

    gensimでDoc2vecをトレーニングするためにマルチコアCPUを効率的に使用することはできません

  10. 10

    Gensim doc2vecモデルをプレーンテキスト(.txt)として保存する方法はありますか?

  11. 11

    gensim 0.11.1のDoc2Vecからドキュメントベクトルを取得するにはどうすればよいですか?

  12. 12

    事前にトレーニングされた埋め込みをgensimスキップグラムモデルに使用するにはどうすればよいですか?

  13. 13

    Gensimを使用してWord2vecモデルをトレーニングする

  14. 14

    gensimを使用したfasttextライブラリからの事前トレーニング済み単語埋め込みのメモリ効率的なロード

  15. 15

    事前トレーニング済みのgensim Word2vec埋め込みをケラスに埋め込む

  16. 16

    事前にトレーニングされたモデルを使用したgensimでは、wmdistanceは適切に機能していますが、n_similarityは機能していません

  17. 17

    Gensim: LDA モデルをトレーニングできません

  18. 18

    gensimから事前にトレーニングされたベクトルを使用したトーチ埋め込みレイヤーへの予想される入力

  19. 19

    gensimを使用してトレーニング済みのファストテキストモデルをロードする際の問題

  20. 20

    gensimライブラリを使用したトレーニング中のSkip-gramword2vecとCBOWw2vの違いは何ですか?

  21. 21

    Gensimで作成されたカスタムトレーニング済み単語ベクトルをSpacyにロードするのに問題がある

  22. 22

    複数のワーカーのサポートを受けて、gensimでword2vecをバッチトレーニングします

  23. 23

    Python:gensim:RuntimeError:モデルをトレーニングする前に、まず語彙を構築する必要があります

  24. 24

    Tensorflowでwordvecをトレーニングし、Gensimにインポートします

  25. 25

    gensim Doc2Vecは、ポジティブコンテキストとネガティブコンテキストの同じ文を区別しますか?

  26. 26

    初期値を使用したGensim単語埋め込みトレーニング

  27. 27

    Gensim:「C拡張機能がロードされていません。トレーニングが遅くなります。」

  28. 28

    PyTorch / Gensim-事前トレーニング済みの単語の埋め込みを読み込む方法

  29. 29

    wikicorpusでトレーニングされたdoc2vecモデルからの新しい文

ホットタグ

アーカイブ