wikicorpusでトレーニングされたdoc2vecモデルからの新しい文

debugcn 投稿 Dev

Pusheen_the_dev

フランス語版ウィキペディアからDoc2Vecモデルをトレーニングしています。

私のコードはこのノートブックに基づいています：https：//github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb

実際にはトレーニング段階ですが、その後、新しい文をベクトル化する方法がわかりません。

使用する必要があります：model.infer_vector ["ここに例文"]？しかし、この場合、Wikicorpusメソッドと同じ処理を行う方法は？（これはここでは説明されていません：https：//radimrehurek.com/gensim/corpora/wikicorpus.html）

ありがとう！

ゴジョモ

あなたは正しい方向に進んでいますinfer_vector()が、[]-indexingを提供するオブジェクトではなく、引数を使用して呼び出されるメソッドです。また、生の文字列ではなく、単語トークンのリストが必要です。したがって、あなたの小さな例文では、より良い呼び出しは次のようになります。

model.infer_vector(['Example', 'sentence', 'here'])

ただし、大文字と句読点などが同じように扱われるように、トレーニングデータで行ったのと同じ方法で後の文を前処理してトークン化する必要があります。（そうでない場合、推測しようとするトークンの多くは、モデルに完全に同等のものがないため、無視される可能性が高くなります。）

gensimのWikiCorpus機能については、次の場所でソースを確認できます。

https://github.com/RaRe-Technologies/gensim/blob/f97d0e793faa57877a2bbedc15c287835463eaa9/gensim/corpora/wikicorpus.py#L340

具体的には、gensim.utils.tokenize()平文で関数を再利用して、トークン化と一致させることができます。（完全な「wikiテキスト」前処理を実行する必要がある場合は、そのファイル内の他のメソッドを照合または再利用する必要があります）。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-11

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

wikicorpusでトレーニングされたdoc2vecモデルからの新しい文

wikicorpusでトレーニングされたdoc2vecモデルからの新しい文

Doc2Vecモデルのトレーニングを続ける

事前にトレーニングされたWord2vecモデルファイルをロードして再利用するにはどうすればよいですか？

事前にトレーニングされた単語ベクトルを使用してgensimword2vecモデルを作成するにはどうすればよいですか？

doc2Vecモデルをトレーニングするには、実際にどのくらいのデータが必要ですか？

Gensim Word2Vecは、事前にトレーニングされたモデルから単語ベクトルのマイナーセットを選択します

Doc2Vecモデルのトレーニング後の精度が低い

gensim doc2vecは、事前にトレーニングされたモデルからより多くのドキュメントをトレーニングします

gensim：Googleの事前トレーニング済みword2vecモデルをロードすると、「Doc2Vec」オブジェクトに属性「intersect_word2vec_format」がありません

文の感情分析のためにkerasSequntialモデルでdoc2vecからの文ベクトルを使用する方法は？

Gensim Doc2vecモデル：事前にトレーニングされたdoc2vecモデルを使用して取得されたコーパスの類似性を計算する方法は？

単語ベクトルは、doc2vec DBOWの段落ベクトルとどのように共同トレーニングされますか？

s3から事前トレーニングされたモデルを使用していくつかのデータを予測する方法は？

ファイルからのword2vecモデルストリーミングデータのトレーニングと文へのトークン化

gensimでDoc2vecをトレーニングするためにマルチコアCPUを効率的に使用することはできません

Tensorflowでトレーニングされたモデルの速度

新しい語彙でword2vecモデルを段階的にトレーニングする方法

トレーニングジョブが作成された後、新しいデータでsagemakerモデルを再トレーニングする方法

私のDoc2Vecコードは、トレーニングを何度も繰り返した後、良い結果が得られていません。何が悪いのでしょうか？

gensimの事前トレーニング済みモデルをdoc2vecモデルに使用できますか？

doc2vec埋め込みをトレーニングするための学習曲線を作成する

トレーニング中にmin_countが1に設定されている場合でも、Doc2VecモデルのKeyError

事前にトレーニングされたモデルをgensimにロードし、それを使用してdoc2vecをトレーニングするにはどうすればよいですか？

doc2vec-Pythonでのdoc2vecトレーニングとinfer_vector（）の入力形式

Gensim: 事前トレーニング済みの doc2vec モデルのロード中にエラーが発生しましたか?

doc2vec: 推論されたドキュメントからドキュメントをプルする

doc2vecの階層トレーニング：同じドキュメントの文に同じラベルを割り当てるとどのように機能しますか？

別の言語でトレーニングされたWord2vecモデルの精度を測定する方法は？

doc2vecモデルで事前トレーニングされたword2vecベクトルを使用する方法は？

doc2vecモデルを使用して、ドキュメントと比較した1つの単語またはいくつかの単語の類似性を計算するにはどうすればよいですか？