フランス語版ウィキペディアからDoc2Vecモデルをトレーニングしています。
私のコードはこのノートブックに基づいています:https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb
実際にはトレーニング段階ですが、その後、新しい文をベクトル化する方法がわかりません。
使用する必要があります:model.infer_vector ["ここに例文"]?しかし、この場合、Wikicorpusメソッドと同じ処理を行う方法は?(これはここでは説明されていません:https://radimrehurek.com/gensim/corpora/wikicorpus.html)
ありがとう!
あなたは正しい方向に進んでいますinfer_vector()
が、[]
-indexingを提供するオブジェクトではなく、引数を使用して呼び出されるメソッドです。また、生の文字列ではなく、単語トークンのリストが必要です。したがって、あなたの小さな例文では、より良い呼び出しは次のようになります。
model.infer_vector(['Example', 'sentence', 'here'])
ただし、大文字と句読点などが同じように扱われるように、トレーニングデータで行ったのと同じ方法で後の文を前処理してトークン化する必要があります。(そうでない場合、推測しようとするトークンの多くは、モデルに完全に同等のものがないため、無視される可能性が高くなります。)
gensimのWikiCorpus
機能については、次の場所でソースを確認できます。
具体的には、gensim.utils.tokenize()
平文で関数を再利用して、トークン化と一致させることができます。(完全な「wikiテキスト」前処理を実行する必要がある場合は、そのファイル内の他のメソッドを照合または再利用する必要があります)。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加