コーパスに単語が混在する文があります(辞書と非辞書の単語)。非辞書の単語は、ドメイン固有であるのと同じくらい重要です。辞書にない単語に対してnlpを実行していません。doc2vecモデルは、一致基準で非辞書の単語を同じ単語と比較しますか?
例 入力['AMDML'、 'release']を与えています。ここでAMDMLはドメイン固有の単語です。['AMDML'、 'release'、 'process']や['DML'、 'release']のようなトレーニングモデルの文がある場合、同じ単語に一致しますか?または、「release」や「process」などの単語のみが最も類似した方法で一致しますか?
私はそうは思わない。
LeとMikolovの論文(Doc2Vecアルゴリズムの紹介者)に言及したradimrehurek-gensimページによると、彼らは段落ベクトルモデルをDoc2Vecと呼んでいます。
Gensimでは、段落ベクトルモデルをDoc2Vecと呼びます。これは通常、Word2Vecベクトルのこのような単純な平均化よりも優れています。基本的な考え方は次のとおりです。ドキュメントに別の浮動単語のようなベクトルがあるかのように動作します。これはすべてのトレーニング予測に寄与し、他の単語ベクトルのように更新されますが、これをdocベクトルと呼びます。GensimのDoc2Vecクラスは、このアルゴリズムを実装しています。
したがって、Doc2VecはWord2Vecモデル/アルゴリズムに従っていると思います。たとえば、Word2VecモデルのAMDML
トレーニングコーパスに単語がある場合、そのベクトルを生成できます。そうでなければ、それはそれについての考えを知っていてerror: missing word
、あなたに似たようなものを示すか、少なくともパディング/空のベクトルを返します。
fasttextのようなものが必要だと思います; fasttextモデルには、そのtraianingコーパスに存在しない場合でも、常に任意の単語のベクトルがあります。word2vecとは異なり、fasttextは単語のnグラム文字から学習できるため、類似性の値を測定することで類似した単語を見つけることができます。その後、これらの類似性を平均化する各文/ドキュメントについて、類似した文/ドキュメントを見つけます。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加