doc2vecモデルは、辞書にない単語に正確さを与えますか？

debugcn 投稿 Dev

ヴィシャル・ソランキ

コーパスに単語が混在する文があります（辞書と非辞書の単語）。非辞書の単語は、ドメイン固有であるのと同じくらい重要です。辞書にない単語に対してnlpを実行していません。doc2vecモデルは、一致基準で非辞書の単語を同じ単語と比較しますか？

例入力['AMDML'、 'release']を与えています。ここでAMDMLはドメイン固有の単語です。['AMDML'、 'release'、 'process']や['DML'、 'release']のようなトレーニングモデルの文がある場合、同じ単語に一致しますか？または、「release」や「process」などの単語のみが最も類似した方法で一致しますか？

北朝鮮

私はそうは思わない。

LeとMikolovの論文（Doc2Vecアルゴリズムの紹介者）に言及したradimrehurek-gensimページによると、彼らは段落ベクトルモデルをDoc2Vecと呼んでいます。

Gensimでは、段落ベクトルモデルをDoc2Vecと呼びます。これは通常、Word2Vecベクトルのこのような単純な平均化よりも優れています。基本的な考え方は次のとおりです。ドキュメントに別の浮動単語のようなベクトルがあるかのように動作します。これはすべてのトレーニング予測に寄与し、他の単語ベクトルのように更新されますが、これをdocベクトルと呼びます。GensimのDoc2Vecクラスは、このアルゴリズムを実装しています。

したがって、Doc2VecはWord2Vecモデル/アルゴリズムに従っていると思います。たとえば、Word2VecモデルのAMDMLトレーニングコーパスに単語がある場合、そのベクトルを生成できます。そうでなければ、それはそれについての考えを知っていてerror: missing word、あなたに似たようなものを示すか、少なくともパディング/空のベクトルを返します。

fasttextのようなものが必要だと思います; fasttextモデルには、そのtraianingコーパスに存在しない場合でも、常に任意の単語のベクトルがあります。word2vecとは異なり、fasttextは単語のnグラム文字から学習できるため、類似性の値を測定することで類似した単語を見つけることができます。その後、これらの類似性を平均化する各文/ドキュメントについて、類似した文/ドキュメントを見つけます。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-13

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

doc2vecモデルは、辞書にない単語に正確さを与えますか？

doc2vecモデルは、辞書にない単語に正確さを与えますか？

doc2vecモデルを使用して、ドキュメントと比較した1つの単語またはいくつかの単語の類似性を計算するにはどうすればよいですか？

dbow_wordsが1または0に設定されている場合、doc2vecモデル間で何が異なりますか？

doc2vecモデルから語彙サイズを取得する方法はありますか？

単語ベクトルは、doc2vec DBOWの段落ベクトルとどのように共同トレーニングされますか？

Doc2Vecモデルは、ドキュメントタグをシンボルに分割します

Doc2Vecは感情分析に適していますか？

doc2Vecモデルをトレーニングするには、実際にどのくらいのデータが必要ですか？

doc2vecの元のドキュメントに単語をさかのぼることは可能ですか？

Doc2vecモデルの精度を測定する方法は？

Gensim Doc2vecモデル：事前にトレーニングされたdoc2vecモデルを使用して取得されたコーパスの類似性を計算する方法は？

事前にトレーニングされたモデルをgensimにロードし、それを使用してdoc2vecをトレーニングするにはどうすればよいですか？

gensimの事前トレーニング済みモデルをdoc2vecモデルに使用できますか？

Genisim doc2vec：短いドキュメントはどのように処理されますか？

文の感情分析のためにkerasSequntialモデルでdoc2vecからの文ベクトルを使用する方法は？

word2vecモデルは、単語ではなく文字で構成されています

Gensim doc2vecがAttributeErrorを与えるのはなぜですか： 'list'オブジェクトに属性 'words'がありませんか？

Gensim doc2vecがAttributeErrorを与えるのはなぜですか： 'list'オブジェクトに属性 'words'がありませんか？

gensim doc2vecは、事前にトレーニングされたモデルからより多くのドキュメントをトレーニングします

クラスタリングのためにDoc2Vecのドキュメント出力ベクトルを正規化しない理由はありますか？

Word2vecモデルのサイズが非常に小さく、単語を認識していません

単純なJavaスペルチェッカー/単語が辞書に存在するかどうかを確認

doc2vecモデル全体からの単語ベクトルと特定のドキュメントからの単語ベクトル

ランダムな入力文字に基づいて辞書で単語を探すために、このコードは効率的に実行されますか？

pyspark word2vecモデルから単語リストを取得するにはどうすればよいですか？

正確でない単語をstr_replaceに置き換えずに、正確な単語を置き換えます

テキストエディタ内の「辞書に単語を追加」機能を使用すると、単語はどこに保存されますか？

Gensim doc2vecモデルをプレーンテキスト（.txt）として保存する方法はありますか？

正確な単語のみをテーブルの単語のリストに置き換えます

doc2vecモデルで事前トレーニングされたword2vecベクトルを使用する方法は？