doc2vecモデルは、辞書にない単語に正確さを与えますか?

ヴィシャル・ソランキ

コーパスに単語が混在する文があります(辞書と非辞書の単語)。非辞書の単語は、ドメイン固有であるのと同じくらい重要です。辞書にない単語に対してnlpを実行していません。doc2vecモデルは、一致基準で非辞書の単語を同じ単語と比較しますか?

入力['AMDML'、 'release']を与えています。ここでAMDMLはドメイン固有の単語です。['AMDML'、 'release'、 'process']や['DML'、 'release']のようなトレーニングモデルの文がある場合、同じ単語に一致しますか?または、「release」や「process」などの単語のみが最も類似した方法で一致しますか?

北朝鮮

私はそうは思わない。

LeとMikolovの論文(Doc2Vecアルゴリズムの紹介者)に言及したradimrehurek-gensimページによると、彼らは段落ベクトルモデルをDoc2Vecと呼んでいます。

Gensimでは、段落ベクトルモデルをDoc2Vecと呼びます。これは通常、Word2Vecベクトルのこのような単純な平均化よりも優れています。基本的な考え方は次のとおりです。ドキュメントに別の浮動単語のようなベクトルがあるかのように動作します。これはすべてのトレーニング予測に寄与し、他の単語ベクトルのように更新されますが、これをdocベクトルと呼びます。GensimのDoc2Vecクラスは、このアルゴリズムを実装しています。

したがって、Doc2VecはWord2Vecモデル/アルゴリズムに従っていると思います。たとえば、Word2VecモデルのAMDMLトレーニングコーパスに単語がある場合、そのベクトルを生成できます。そうでなければ、それはそれについての考えを知っていてerror: missing word、あなたに似たようなものを示すか、少なくともパディング/空のベクトルを返します。

fasttextのようなものが必要だと思います; fasttextモデルには、そのtraianingコーパスに存在しない場合でも、常に任意の単語のベクトルがあります。word2vecとは異なり、fasttextは単語のnグラム文字から学習できるため、類似性の値を測定することで類似した単語を見つけることができます。その後、これらの類似性を平均化する各文/ドキュメントについて、類似した文/ドキュメントを見つけます。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

doc2vecモデルを使用して、ドキュメントと比較した1つの単語またはいくつかの単語の類似性を計算するにはどうすればよいですか?

分類Dev

dbow_wordsが1または0に設定されている場合、doc2vecモデル間で何が異なりますか?

分類Dev

doc2vecモデルから語彙サイズを取得する方法はありますか?

分類Dev

単語ベクトルは、doc2vec DBOWの段落ベクトルとどのように共同トレーニングされますか?

分類Dev

Doc2Vecモデルは、ドキュメントタグをシンボルに分割します

分類Dev

Doc2Vecは感情分析に適していますか?

分類Dev

doc2Vecモデルをトレーニングするには、実際にどのくらいのデータが必要ですか?

分類Dev

doc2vecの元のドキュメントに単語をさかのぼることは可能ですか?

分類Dev

Doc2vecモデルの精度を測定する方法は?

分類Dev

Gensim Doc2vecモデル:事前にトレーニングされたdoc2vecモデルを使用して取得されたコーパスの類似性を計算する方法は?

分類Dev

事前にトレーニングされたモデルをgensimにロードし、それを使用してdoc2vecをトレーニングするにはどうすればよいですか?

分類Dev

gensimの事前トレーニング済みモデルをdoc2vecモデルに使用できますか?

分類Dev

Genisim doc2vec:短いドキュメントはどのように処理されますか?

分類Dev

文の感情分析のためにkerasSequntialモデルでdoc2vecからの文ベクトルを使用する方法は?

分類Dev

word2vecモデルは、単語ではなく文字で構成されています

分類Dev

Gensim doc2vecがAttributeErrorを与えるのはなぜですか: 'list'オブジェクトに属性 'words'がありませんか?

分類Dev

Gensim doc2vecがAttributeErrorを与えるのはなぜですか: 'list'オブジェクトに属性 'words'がありませんか?

分類Dev

gensim doc2vecは、事前にトレーニングされたモデルからより多くのドキュメントをトレーニングします

分類Dev

クラスタリングのためにDoc2Vecのドキュメント出力ベクトルを正規化しない理由はありますか?

分類Dev

Word2vecモデルのサイズが非常に小さく、単語を認識していません

分類Dev

単純なJavaスペルチェッカー/単語が辞書に存在するかどうかを確認

分類Dev

doc2vecモデル全体からの単語ベクトルと特定のドキュメントからの単語ベクトル

分類Dev

ランダムな入力文字に基づいて辞書で単語を探すために、このコードは効率的に実行されますか?

分類Dev

pyspark word2vecモデルから単語リストを取得するにはどうすればよいですか?

分類Dev

正確でない単語をstr_replaceに置き換えずに、正確な単語を置き換えます

分類Dev

テキストエディタ内の「辞書に単語を追加」機能を使用すると、単語はどこに保存されますか?

分類Dev

Gensim doc2vecモデルをプレーンテキスト(.txt)として保存する方法はありますか?

分類Dev

正確な単語のみをテーブルの単語のリストに置き換えます

分類Dev

doc2vecモデルで事前トレーニングされたword2vecベクトルを使用する方法は?

Related 関連記事

  1. 1

    doc2vecモデルを使用して、ドキュメントと比較した1つの単語またはいくつかの単語の類似性を計算するにはどうすればよいですか?

  2. 2

    dbow_wordsが1または0に設定されている場合、doc2vecモデル間で何が異なりますか?

  3. 3

    doc2vecモデルから語彙サイズを取得する方法はありますか?

  4. 4

    単語ベクトルは、doc2vec DBOWの段落ベクトルとどのように共同トレーニングされますか?

  5. 5

    Doc2Vecモデルは、ドキュメントタグをシンボルに分割します

  6. 6

    Doc2Vecは感情分析に適していますか?

  7. 7

    doc2Vecモデルをトレーニングするには、実際にどのくらいのデータが必要ですか?

  8. 8

    doc2vecの元のドキュメントに単語をさかのぼることは可能ですか?

  9. 9

    Doc2vecモデルの精度を測定する方法は?

  10. 10

    Gensim Doc2vecモデル:事前にトレーニングされたdoc2vecモデルを使用して取得されたコーパスの類似性を計算する方法は?

  11. 11

    事前にトレーニングされたモデルをgensimにロードし、それを使用してdoc2vecをトレーニングするにはどうすればよいですか?

  12. 12

    gensimの事前トレーニング済みモデルをdoc2vecモデルに使用できますか?

  13. 13

    Genisim doc2vec:短いドキュメントはどのように処理されますか?

  14. 14

    文の感情分析のためにkerasSequntialモデルでdoc2vecからの文ベクトルを使用する方法は?

  15. 15

    word2vecモデルは、単語ではなく文字で構成されています

  16. 16

    Gensim doc2vecがAttributeErrorを与えるのはなぜですか: 'list'オブジェクトに属性 'words'がありませんか?

  17. 17

    Gensim doc2vecがAttributeErrorを与えるのはなぜですか: 'list'オブジェクトに属性 'words'がありませんか?

  18. 18

    gensim doc2vecは、事前にトレーニングされたモデルからより多くのドキュメントをトレーニングします

  19. 19

    クラスタリングのためにDoc2Vecのドキュメント出力ベクトルを正規化しない理由はありますか?

  20. 20

    Word2vecモデルのサイズが非常に小さく、単語を認識していません

  21. 21

    単純なJavaスペルチェッカー/単語が辞書に存在するかどうかを確認

  22. 22

    doc2vecモデル全体からの単語ベクトルと特定のドキュメントからの単語ベクトル

  23. 23

    ランダムな入力文字に基づいて辞書で単語を探すために、このコードは効率的に実行されますか?

  24. 24

    pyspark word2vecモデルから単語リストを取得するにはどうすればよいですか?

  25. 25

    正確でない単語をstr_replaceに置き換えずに、正確な単語を置き換えます

  26. 26

    テキストエディタ内の「辞書に単語を追加」機能を使用すると、単語はどこに保存されますか?

  27. 27

    Gensim doc2vecモデルをプレーンテキスト(.txt)として保存する方法はありますか?

  28. 28

    正確な単語のみをテーブルの単語のリストに置き換えます

  29. 29

    doc2vecモデルで事前トレーニングされたword2vecベクトルを使用する方法は?

ホットタグ

アーカイブ