Genisim doc2vec:短いドキュメントはどのように処理されますか?

Jiadong Chen

doc2vecトレーニングプロセスの各小さなステップで、特定の長さ(ウィンドウサイズと呼ばれる)内の単語とその隣接語を取得します。ネイバーは、合計、平均化、または連結などされます。

私の質問は、ウィンドウが特定のドキュメントの境界を超えた場合、このようになります

それでは、隣人はどのように合計、平均、または連結されますか?それとも単に破棄されますか?

私はいくつかのnlp作業を行っていますが、データセット内のほとんどのドキュメントは非常に短いです。どんなアイデアにもぴったりです。

ゴジョモ

純粋なPV-DBOWモード(dm=0)は、高速でトレーニングが頻繁に行われ(特に短いドキュメントで)、スライドwindowをまったく使用しませんドキュメントごとの各ベクトルは、ドキュメントの単語を直接予測できるようにトレーニングされているだけです。隣接する単語は何の違いもありません。

PV-DMモードに切り替えるか(dm=1)、またはインターリーブされたスキップグラム単語ベクトルトレーニングを追加する場合dm=0, dbow_words=1)のみがwindow関係します。そして、ウィンドウはWord2Vecトレーニングと同じように処理されます。テキストの両端を通過する場合は、端を超えないように切り捨てられ、有効なウィンドウが片側に残る可能性があります。

したがって、テキスト「ABCD E」があり、awindowが2の場合、最初の単語「A」を予測するときに、右側の「B」と「C」のみが寄与します(左側に単語がないため)。2番目の単語「B」を予測する場合、左側の「A」と右側の「C」と「D」が寄与します。などなど。

追加のしわは、計算効率の高い方法で近くの単語のより強い重み付けを行うために、任意の1つのターゲット予測に使用される実際のウィンドウは、実際には1から構成windowまでのランダムなサイズです。したがって、のwindow=2場合、半分の時間は実際には両側に1のウィンドウのみを使用し、残りの半分の時間は2のフルウィンドウを使用します(の場合window=5、予測の20%に有効値1を使用し、予測の20%に2を使用します。予測の20%、予測の20%に3、予測の20%に4、予測の20%に5)。これにより、すべての完全な計算コストを含めることなく、より近い単語に効果的に影響を与えることができます。毎回のウィンドウワードまたは追加の部分加重計算。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

gensim 0.11.1のDoc2Vecからドキュメントベクトルを取得するにはどうすればよいですか?

分類Dev

doc2vecモデルを使用して、ドキュメントと比較した1つの単語またはいくつかの単語の類似性を計算するにはどうすればよいですか?

分類Dev

doc2vec: 推論されたドキュメントからドキュメントをプルする

分類Dev

gensim doc2vecは、事前にトレーニングされたモデルからより多くのドキュメントをトレーニングします

分類Dev

単語ベクトルは、doc2vec DBOWの段落ベクトルとどのように共同トレーニングされますか?

分類Dev

ドキュメントが削除された場合、Firestoreトランザクションでエラーはどのように処理されますか

分類Dev

doc2vecの元のドキュメントに単語をさかのぼることは可能ですか?

分類Dev

doc2vecの階層トレーニング:同じドキュメントの文に同じラベルを割り当てるとどのように機能しますか?

分類Dev

Doc2Vecモデルは、ドキュメントタグをシンボルに分割します

分類Dev

ifステートメントはどのように処理されますか?

分類Dev

Doc2Vec:コード化されたドキュメントと見えないドキュメントの類似性

分類Dev

doc2vecとのドキュメントの類似性

分類Dev

事前にトレーニングされたモデルをgensimにロードし、それを使用してdoc2vecをトレーニングするにはどうすればよいですか?

分類Dev

Twitter BootstrapのドキュメントWebサイトはどのように作成されていますか?

分類Dev

Doc2Vecを使用して2つのドキュメント間の類似性を測定します

分類Dev

クラスタリングのためにDoc2Vecのドキュメント出力ベクトルを正規化しない理由はありますか?

分類Dev

メッセージキューで方向の変更はどのように処理されますか?

分類Dev

`cargo doc`によって生成されたドキュメントで機能要件タグを取得するにはどうすればよいですか?

分類Dev

Mongo.Driver.LinqとMongoC#ドライバー2.3を使用して、フィルター処理されたサブドキュメントを含むドキュメントを返すにはどうすればよいですか?

分類Dev

WSO2 ESB ForEachメディエーターを使用して、すべての第1レベルのオブジェクトをこのJSONドキュメントに反復処理するにはどうすればよいですか?

分類Dev

フラグメントがロードされないように方向の変更を処理するにはどうすればよいですか?

分類Dev

このコードはどのように処理されていますか?

分類Dev

制約.jsおよびkimbo.jsのドキュメントはどのように生成されますか?

分類Dev

Azure Functionを使用してコスモスリースドキュメントを再処理するにはどうすればよいですか?

分類Dev

SOLRで「ドキュメントに少なくとも1つの巨大な用語が含まれている」を処理するにはどうすればよいですか?

分類Dev

Godot-シーンはビューポートの外でどのように処理されますか?

分類Dev

Doc2Vec:文とドキュメントを区別する

分類Dev

最近のドキュメントを削除または削除するにはどうすればよいですか?

分類Dev

Spark:ウィンドウベースの処理はどのようにエグゼキュータに分割されますか?

Related 関連記事

  1. 1

    gensim 0.11.1のDoc2Vecからドキュメントベクトルを取得するにはどうすればよいですか?

  2. 2

    doc2vecモデルを使用して、ドキュメントと比較した1つの単語またはいくつかの単語の類似性を計算するにはどうすればよいですか?

  3. 3

    doc2vec: 推論されたドキュメントからドキュメントをプルする

  4. 4

    gensim doc2vecは、事前にトレーニングされたモデルからより多くのドキュメントをトレーニングします

  5. 5

    単語ベクトルは、doc2vec DBOWの段落ベクトルとどのように共同トレーニングされますか?

  6. 6

    ドキュメントが削除された場合、Firestoreトランザクションでエラーはどのように処理されますか

  7. 7

    doc2vecの元のドキュメントに単語をさかのぼることは可能ですか?

  8. 8

    doc2vecの階層トレーニング:同じドキュメントの文に同じラベルを割り当てるとどのように機能しますか?

  9. 9

    Doc2Vecモデルは、ドキュメントタグをシンボルに分割します

  10. 10

    ifステートメントはどのように処理されますか?

  11. 11

    Doc2Vec:コード化されたドキュメントと見えないドキュメントの類似性

  12. 12

    doc2vecとのドキュメントの類似性

  13. 13

    事前にトレーニングされたモデルをgensimにロードし、それを使用してdoc2vecをトレーニングするにはどうすればよいですか?

  14. 14

    Twitter BootstrapのドキュメントWebサイトはどのように作成されていますか?

  15. 15

    Doc2Vecを使用して2つのドキュメント間の類似性を測定します

  16. 16

    クラスタリングのためにDoc2Vecのドキュメント出力ベクトルを正規化しない理由はありますか?

  17. 17

    メッセージキューで方向の変更はどのように処理されますか?

  18. 18

    `cargo doc`によって生成されたドキュメントで機能要件タグを取得するにはどうすればよいですか?

  19. 19

    Mongo.Driver.LinqとMongoC#ドライバー2.3を使用して、フィルター処理されたサブドキュメントを含むドキュメントを返すにはどうすればよいですか?

  20. 20

    WSO2 ESB ForEachメディエーターを使用して、すべての第1レベルのオブジェクトをこのJSONドキュメントに反復処理するにはどうすればよいですか?

  21. 21

    フラグメントがロードされないように方向の変更を処理するにはどうすればよいですか?

  22. 22

    このコードはどのように処理されていますか?

  23. 23

    制約.jsおよびkimbo.jsのドキュメントはどのように生成されますか?

  24. 24

    Azure Functionを使用してコスモスリースドキュメントを再処理するにはどうすればよいですか?

  25. 25

    SOLRで「ドキュメントに少なくとも1つの巨大な用語が含まれている」を処理するにはどうすればよいですか?

  26. 26

    Godot-シーンはビューポートの外でどのように処理されますか?

  27. 27

    Doc2Vec:文とドキュメントを区別する

  28. 28

    最近のドキュメントを削除または削除するにはどうすればよいですか?

  29. 29

    Spark:ウィンドウベースの処理はどのようにエグゼキュータに分割されますか?

ホットタグ

アーカイブ