Python word2vec、doc2vecを使用して2つのドキュメント間の類似性を計算する

ChanKim

数千を超える文で構成される2つのドキュメント間の類似性を計算しようとしています。

ベースラインは、BOWを使用してコサイン類似度を計算します。

ただし、ドキュメント間のセマンティックの違いをもっと把握したいと思います。

したがって、各ドキュメントのすべての単語ベクトルを単純に平均してドキュメントベクトルを生成し、これらのドキュメントベクトル間の余弦の類似性を測定することで、単語の埋め込みを構築し、ドキュメントの類似性を計算しました。

ただし、各入力ドキュメントのサイズはかなり大きいため、上記の方法を使用して得られる結果は、単純なBOWコサイン類似度と非常によく似ています。

2つの質問があります。

Q1。gensimモジュールがソフトコサイン類似性を提供することがわかりました。しかし、私は上記の方法との違いを理解するのに苦労しており、100万ペアのドキュメント間の類似性を計算するメカニズムではないかもしれないと思います。

Q2。gensimによるDoc2Vecが私の目的により適していることがわかりました。しかし、Doc2Vecのトレーニングには私が持っているよりも多くのRAM(32GB)が必要であることを認識しました(ドキュメント全体のサイズは約100GBです)。コーパス全体の小さな部分(20GBなど)でモデルをトレーニングし、このモデルを使用してコーパス全体のペアワイズ類似性を計算する方法はありますか?はいの場合、望ましい列車セットのサイズはどれくらいですか?私が従うことができるチュートリアルはありますか?

ウィティコ

広告Q1:類似性マトリックスに単語の埋め込みのコサイン類似性が含まれている場合(多かれ少なかれ含まれています。SemEval-2017タスク3のSimBowの式4を参照)、単語の埋め込みがL2正規化されている場合、SCM(Softコサインメジャー)は、単語の埋め込み(つまりベースライン)を平均化することと同じです。証明については、SCMの実装ノートの補題3.3を参照してくださいSCMのマイGensim実装(12)に加えて、あなたがバニラSCMに比べてわずかに異なる結果が得られますので、メモリフットプリントの小さなを維持し、埋め込みを定例化する類似度行列をsparsifies。埋め込み平均が単純なBOWコサイン類似性と同様の結果をもたらす場合、埋め込みの品質に疑問があります。

広告Q2:データセット全体で1エポックのDoc2Vecモデルをトレーニングすることは、データセット全体のより小さなセグメントで、セグメントごとに1エポックでDoc2Vecモデルをトレーニングすることと同じです。Doc2Vecはトレーニングプロセスの一部としてドキュメントIDを使用するため、セグメンテーション後もIDが一意であることを確認する必要があることに注意してください(つまり、最初のセグメントの最初のドキュメントは、2番目のセグメントの最初のドキュメントとは異なるIDを持っている必要があります)セグメント)。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

Pythonでgensimのword2vecモデルを使用して文の類似性を計算する方法

分類Dev

Pythonで文のword2vecを使用して2つの文の間の類似性を見つける

分類Dev

Doc2Vecを使用して2つのドキュメント間の類似性を測定します

分類Dev

Pythonでgensimとword2vecを使用して意味的類似性を見つける方法

分類Dev

Python Gensim:LDAモデルを使用してドキュメントの類似性を計算する方法?

分類Dev

doc2vecモデルを使用して、ドキュメントと比較した1つの単語またはいくつかの単語の類似性を計算するにはどうすればよいですか?

分類Dev

word2vecを使用して文の類似性を計算する

分類Dev

doc2vecとのドキュメントの類似性

分類Dev

Python での 2 つのテキスト ドキュメントの類似性

分類Dev

word2vecのようなdoc2vecとの類似性を見つける

分類Dev

Python:tf-idf-cosine:ドキュメントの類似性を見つける

分類Dev

Python Gensimの2つのドキュメント間のトピックの類似性をトピックの分布から比較するにはどうすればよいですか?

分類Dev

word2vecを使用した2つの文の類似性

分類Dev

Gensim Doc2vecモデル:事前にトレーニングされたdoc2vecモデルを使用して取得されたコーパスの類似性を計算する方法は?

分類Dev

word2vecを使用してk-meansのテキストドキュメント間の距離をどのように計算しますか?

分類Dev

SpacyとWord2Vecのドキュメントの類似性

分類Dev

Doc2Vec最も類似したドキュメントを入手する

分類Dev

Pythonのgensimでdoc2vecインスタンスを個別に識別する方法

分類Dev

Pythonの2つのネストされた辞書内の類似したキーの値を合計する

分類Dev

doc2vecでドキュメントの最も類似した用語/単語を見つける方法は?

分類Dev

forループとbreakまたはcontinueステートメントを使用して、非類似性の前に2つの読み取り文字列の類似性の数を識別します:python

分類Dev

2つのテキストドキュメント間の類似性を計算する方法は?

分類Dev

doc2vec-Pythonでのdoc2vecトレーニングとinfer_vector()の入力形式

分類Dev

Pythonの2つの埋め込みドキュメントから意味的に類似した単語のリストを取得したい

分類Dev

Pythonでの2つの辞書の類似性に基づいて「類似スコア」を返しますか?

分類Dev

Python:パンダの2つの列間のtf-idfコサイン類似度を計算するときのMemoryError

分類Dev

リストPythonを行列の類似性に計算する方法

分類Dev

2つの16進パケット間の類似性の16進ポイントを見つけるためのPythonコード

分類Dev

Pythonでコサイン類似性を使用して2つの辞書を比較するときにエラーを入力する

Related 関連記事

  1. 1

    Pythonでgensimのword2vecモデルを使用して文の類似性を計算する方法

  2. 2

    Pythonで文のword2vecを使用して2つの文の間の類似性を見つける

  3. 3

    Doc2Vecを使用して2つのドキュメント間の類似性を測定します

  4. 4

    Pythonでgensimとword2vecを使用して意味的類似性を見つける方法

  5. 5

    Python Gensim:LDAモデルを使用してドキュメントの類似性を計算する方法?

  6. 6

    doc2vecモデルを使用して、ドキュメントと比較した1つの単語またはいくつかの単語の類似性を計算するにはどうすればよいですか?

  7. 7

    word2vecを使用して文の類似性を計算する

  8. 8

    doc2vecとのドキュメントの類似性

  9. 9

    Python での 2 つのテキスト ドキュメントの類似性

  10. 10

    word2vecのようなdoc2vecとの類似性を見つける

  11. 11

    Python:tf-idf-cosine:ドキュメントの類似性を見つける

  12. 12

    Python Gensimの2つのドキュメント間のトピックの類似性をトピックの分布から比較するにはどうすればよいですか?

  13. 13

    word2vecを使用した2つの文の類似性

  14. 14

    Gensim Doc2vecモデル:事前にトレーニングされたdoc2vecモデルを使用して取得されたコーパスの類似性を計算する方法は?

  15. 15

    word2vecを使用してk-meansのテキストドキュメント間の距離をどのように計算しますか?

  16. 16

    SpacyとWord2Vecのドキュメントの類似性

  17. 17

    Doc2Vec最も類似したドキュメントを入手する

  18. 18

    Pythonのgensimでdoc2vecインスタンスを個別に識別する方法

  19. 19

    Pythonの2つのネストされた辞書内の類似したキーの値を合計する

  20. 20

    doc2vecでドキュメントの最も類似した用語/単語を見つける方法は?

  21. 21

    forループとbreakまたはcontinueステートメントを使用して、非類似性の前に2つの読み取り文字列の類似性の数を識別します:python

  22. 22

    2つのテキストドキュメント間の類似性を計算する方法は?

  23. 23

    doc2vec-Pythonでのdoc2vecトレーニングとinfer_vector()の入力形式

  24. 24

    Pythonの2つの埋め込みドキュメントから意味的に類似した単語のリストを取得したい

  25. 25

    Pythonでの2つの辞書の類似性に基づいて「類似スコア」を返しますか?

  26. 26

    Python:パンダの2つの列間のtf-idfコサイン類似度を計算するときのMemoryError

  27. 27

    リストPythonを行列の類似性に計算する方法

  28. 28

    2つの16進パケット間の類似性の16進ポイントを見つけるためのPythonコード

  29. 29

    Pythonでコサイン類似性を使用して2つの辞書を比較するときにエラーを入力する

ホットタグ

アーカイブ