Genisim doc2vec：短いドキュメントはどのように処理されますか？

debugcn 投稿 Dev

Jiadong Chen

doc2vecトレーニングプロセスの各小さなステップで、特定の長さ（ウィンドウサイズと呼ばれる）内の単語とその隣接語を取得します。ネイバーは、合計、平均化、または連結などされます。

私の質問は、ウィンドウが特定のドキュメントの境界を超えた場合、このようになります

それでは、隣人はどのように合計、平均、または連結されますか？それとも単に破棄されますか？

私はいくつかのnlp作業を行っていますが、データセット内のほとんどのドキュメントは非常に短いです。どんなアイデアにもぴったりです。

ゴジョモ

純粋なPV-DBOWモード（dm=0）は、高速でトレーニングが頻繁に行われ（特に短いドキュメントで）、スライドwindowをまったく使用しません。ドキュメントごとの各ベクトルは、ドキュメントの単語を直接予測できるようにトレーニングされているだけです。隣接する単語は何の違いもありません。

PV-DMモードに切り替えるか（dm=1）、またはインターリーブされたスキップグラム単語ベクトルトレーニングを追加する場合（dm=0, dbow_words=1）のみがwindow関係します。そして、ウィンドウはWord2Vecトレーニングと同じように処理されます。テキストの両端を通過する場合は、端を超えないように切り捨てられ、有効なウィンドウが片側に残る可能性があります。

したがって、テキスト「ABCD E」があり、awindowが2の場合、最初の単語「A」を予測するときに、右側の「B」と「C」のみが寄与します（左側に単語がないため）。2番目の単語「B」を予測する場合、左側の「A」と右側の「C」と「D」が寄与します。などなど。

追加のしわは、計算効率の高い方法で近くの単語のより強い重み付けを行うために、任意の1つのターゲット予測に使用される実際のウィンドウは、実際には1から構成window値までのランダムなサイズです。したがって、のwindow=2場合、半分の時間は実際には両側に1のウィンドウのみを使用し、残りの半分の時間は2のフルウィンドウを使用します（の場合window=5、予測の20％に有効値1を使用し、予測の20％に2を使用します。予測の20％、予測の20％に3、予測の20％に4、予測の20％に5）。これにより、すべての完全な計算コストを含めることなく、より近い単語に効果的に影響を与えることができます。毎回のウィンドウワードまたは追加の部分加重計算。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-7

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

Genisim doc2vec：短いドキュメントはどのように処理されますか？

Genisim doc2vec：短いドキュメントはどのように処理されますか？

gensim 0.11.1のDoc2Vecからドキュメントベクトルを取得するにはどうすればよいですか？

doc2vecモデルを使用して、ドキュメントと比較した1つの単語またはいくつかの単語の類似性を計算するにはどうすればよいですか？

doc2vec: 推論されたドキュメントからドキュメントをプルする

gensim doc2vecは、事前にトレーニングされたモデルからより多くのドキュメントをトレーニングします

単語ベクトルは、doc2vec DBOWの段落ベクトルとどのように共同トレーニングされますか？

ドキュメントが削除された場合、Firestoreトランザクションでエラーはどのように処理されますか

doc2vecの元のドキュメントに単語をさかのぼることは可能ですか？

doc2vecの階層トレーニング：同じドキュメントの文に同じラベルを割り当てるとどのように機能しますか？

Doc2Vecモデルは、ドキュメントタグをシンボルに分割します

ifステートメントはどのように処理されますか？

Doc2Vec：コード化されたドキュメントと見えないドキュメントの類似性

doc2vecとのドキュメントの類似性

事前にトレーニングされたモデルをgensimにロードし、それを使用してdoc2vecをトレーニングするにはどうすればよいですか？

Twitter BootstrapのドキュメントWebサイトはどのように作成されていますか？

Doc2Vecを使用して2つのドキュメント間の類似性を測定します

クラスタリングのためにDoc2Vecのドキュメント出力ベクトルを正規化しない理由はありますか？

メッセージキューで方向の変更はどのように処理されますか？

`cargo doc`によって生成されたドキュメントで機能要件タグを取得するにはどうすればよいですか？

Mongo.Driver.LinqとMongoC＃ドライバー2.3を使用して、フィルター処理されたサブドキュメントを含むドキュメントを返すにはどうすればよいですか？

WSO2 ESB ForEachメディエーターを使用して、すべての第1レベルのオブジェクトをこのJSONドキュメントに反復処理するにはどうすればよいですか？

フラグメントがロードされないように方向の変更を処理するにはどうすればよいですか？

このコードはどのように処理されていますか？

制約.jsおよびkimbo.jsのドキュメントはどのように生成されますか？

Azure Functionを使用してコスモスリースドキュメントを再処理するにはどうすればよいですか？

SOLRで「ドキュメントに少なくとも1つの巨大な用語が含まれている」を処理するにはどうすればよいですか？

Godot-シーンはビューポートの外でどのように処理されますか？

Doc2Vec：文とドキュメントを区別する

最近のドキュメントを削除または削除するにはどうすればよいですか？

Spark：ウィンドウベースの処理はどのようにエグゼキュータに分割されますか？