wikicorpusでトレーニングされたdoc2vecモデルからの新しい文

Pusheen_the_dev

フランス語版ウィキペディアからDoc2Vecモデルをトレーニングしています。

私のコードはこのノートブックに基づいていますhttps//github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb

実際にはトレーニング段階ですが、その後、新しい文をベクトル化する方法がわかりません。

使用する必要があります:model.infer_vector ["ここに例文"]?しかし、この場合、Wikicorpusメソッドと同じ処理を行う方法は?(これはここでは説明されていません:https//radimrehurek.com/gensim/corpora/wikicorpus.html

ありがとう!

ゴジョモ

あなたは正しい方向に進んでいますinfer_vector()が、[]-indexingを提供するオブジェクトではなく、引数を使用して呼び出されるメソッドです。また、生の文字列ではなく、単語トークンのリストが必要です。したがって、あなたの小さな例文では、より良い呼び出しは次のようになります。

model.infer_vector(['Example', 'sentence', 'here'])

ただし、大文字と句読点などが同じように扱われるように、トレーニングデータで行ったのと同じ方法で後の文を前処理してトークン化する必要があります。(そうでない場合、推測しようとするトークンの多くは、モデルに完全に同等のものがないため、無視される可能性が高くなります。)

gensimのWikiCorpus機能については、次の場所でソースを確認できます

https://github.com/RaRe-Technologies/gensim/blob/f97d0e793faa57877a2bbedc15c287835463eaa9/gensim/corpora/wikicorpus.py#L340

具体的には、gensim.utils.tokenize()平文で関数を再利用して、トークン化と一致させることができます(完全な「wikiテキスト」前処理を実行する必要がある場合は、そのファイル内の他のメソッドを照合または再利用する必要があります)。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

Doc2Vecモデルのトレーニングを続ける

分類Dev

事前にトレーニングされたWord2vecモデルファイルをロードして再利用するにはどうすればよいですか?

分類Dev

事前にトレーニングされた単語ベクトルを使用してgensimword2vecモデルを作成するにはどうすればよいですか?

分類Dev

doc2Vecモデルをトレーニングするには、実際にどのくらいのデータが必要ですか?

分類Dev

Gensim Word2Vecは、事前にトレーニングされたモデルから単語ベクトルのマイナーセットを選択します

分類Dev

Doc2Vecモデルのトレーニング後の精度が低い

分類Dev

gensim doc2vecは、事前にトレーニングされたモデルからより多くのドキュメントをトレーニングします

分類Dev

gensim:Googleの事前トレーニング済みword2vecモデルをロードすると、「Doc2Vec」オブジェクトに属性「intersect_word2vec_format」がありません

分類Dev

文の感情分析のためにkerasSequntialモデルでdoc2vecからの文ベクトルを使用する方法は?

分類Dev

Gensim Doc2vecモデル:事前にトレーニングされたdoc2vecモデルを使用して取得されたコーパスの類似性を計算する方法は?

分類Dev

単語ベクトルは、doc2vec DBOWの段落ベクトルとどのように共同トレーニングされますか?

分類Dev

s3から事前トレーニングされたモデルを使用していくつかのデータを予測する方法は?

分類Dev

ファイルからのword2vecモデルストリーミングデータのトレーニングと文へのトークン化

分類Dev

gensimでDoc2vecをトレーニングするためにマルチコアCPUを効率的に使用することはできません

分類Dev

Tensorflowでトレーニングされたモデルの速度

分類Dev

新しい語彙でword2vecモデルを段階的にトレーニングする方法

分類Dev

トレーニングジョブが作成された後、新しいデータでsagemakerモデルを再トレーニングする方法

分類Dev

私のDoc2Vecコードは、トレーニングを何度も繰り返した後、良い結果が得られていません。何が悪いのでしょうか?

分類Dev

gensimの事前トレーニング済みモデルをdoc2vecモデルに使用できますか?

分類Dev

doc2vec埋め込みをトレーニングするための学習曲線を作成する

分類Dev

トレーニング中にmin_countが1に設定されている場合でも、Doc2VecモデルのKeyError

分類Dev

事前にトレーニングされたモデルをgensimにロードし、それを使用してdoc2vecをトレーニングするにはどうすればよいですか?

分類Dev

doc2vec-Pythonでのdoc2vecトレーニングとinfer_vector()の入力形式

分類Dev

Gensim: 事前トレーニング済みの doc2vec モデルのロード中にエラーが発生しましたか?

分類Dev

doc2vec: 推論されたドキュメントからドキュメントをプルする

分類Dev

doc2vecの階層トレーニング:同じドキュメントの文に同じラベルを割り当てるとどのように機能しますか?

分類Dev

別の言語でトレーニングされたWord2vecモデルの精度を測定する方法は?

分類Dev

doc2vecモデルで事前トレーニングされたword2vecベクトルを使用する方法は?

分類Dev

doc2vecモデルを使用して、ドキュメントと比較した1つの単語またはいくつかの単語の類似性を計算するにはどうすればよいですか?

Related 関連記事

  1. 1

    Doc2Vecモデルのトレーニングを続ける

  2. 2

    事前にトレーニングされたWord2vecモデルファイルをロードして再利用するにはどうすればよいですか?

  3. 3

    事前にトレーニングされた単語ベクトルを使用してgensimword2vecモデルを作成するにはどうすればよいですか?

  4. 4

    doc2Vecモデルをトレーニングするには、実際にどのくらいのデータが必要ですか?

  5. 5

    Gensim Word2Vecは、事前にトレーニングされたモデルから単語ベクトルのマイナーセットを選択します

  6. 6

    Doc2Vecモデルのトレーニング後の精度が低い

  7. 7

    gensim doc2vecは、事前にトレーニングされたモデルからより多くのドキュメントをトレーニングします

  8. 8

    gensim:Googleの事前トレーニング済みword2vecモデルをロードすると、「Doc2Vec」オブジェクトに属性「intersect_word2vec_format」がありません

  9. 9

    文の感情分析のためにkerasSequntialモデルでdoc2vecからの文ベクトルを使用する方法は?

  10. 10

    Gensim Doc2vecモデル:事前にトレーニングされたdoc2vecモデルを使用して取得されたコーパスの類似性を計算する方法は?

  11. 11

    単語ベクトルは、doc2vec DBOWの段落ベクトルとどのように共同トレーニングされますか?

  12. 12

    s3から事前トレーニングされたモデルを使用していくつかのデータを予測する方法は?

  13. 13

    ファイルからのword2vecモデルストリーミングデータのトレーニングと文へのトークン化

  14. 14

    gensimでDoc2vecをトレーニングするためにマルチコアCPUを効率的に使用することはできません

  15. 15

    Tensorflowでトレーニングされたモデルの速度

  16. 16

    新しい語彙でword2vecモデルを段階的にトレーニングする方法

  17. 17

    トレーニングジョブが作成された後、新しいデータでsagemakerモデルを再トレーニングする方法

  18. 18

    私のDoc2Vecコードは、トレーニングを何度も繰り返した後、良い結果が得られていません。何が悪いのでしょうか?

  19. 19

    gensimの事前トレーニング済みモデルをdoc2vecモデルに使用できますか?

  20. 20

    doc2vec埋め込みをトレーニングするための学習曲線を作成する

  21. 21

    トレーニング中にmin_countが1に設定されている場合でも、Doc2VecモデルのKeyError

  22. 22

    事前にトレーニングされたモデルをgensimにロードし、それを使用してdoc2vecをトレーニングするにはどうすればよいですか?

  23. 23

    doc2vec-Pythonでのdoc2vecトレーニングとinfer_vector()の入力形式

  24. 24

    Gensim: 事前トレーニング済みの doc2vec モデルのロード中にエラーが発生しましたか?

  25. 25

    doc2vec: 推論されたドキュメントからドキュメントをプルする

  26. 26

    doc2vecの階層トレーニング:同じドキュメントの文に同じラベルを割り当てるとどのように機能しますか?

  27. 27

    別の言語でトレーニングされたWord2vecモデルの精度を測定する方法は?

  28. 28

    doc2vecモデルで事前トレーニングされたword2vecベクトルを使用する方法は?

  29. 29

    doc2vecモデルを使用して、ドキュメントと比較した1つの単語またはいくつかの単語の類似性を計算するにはどうすればよいですか?

ホットタグ

アーカイブ