GoogleニュースWord2Vecを使用して各ドキュメントのベクトルを取得する方法

リグレッサ

Googleのword2vec事前トレーニング済みモデルを試して、単語の埋め込みを取得しています。コードにモデルをロードすることができ、単語の300次元表現を取得していることがわかります。これがコードです-

import gensim
from gensim import models
from gensim.models import Word2Vec
model = gensim.models.KeyedVectors.load_word2vec_format('/Downloads/GoogleNews-vectors-negative300.bin', binary=True)
dog = model['dog']
print(dog.shape)

これは私に以下の出力を与えます-

>>> print(dog.shape)
(300,)

これは機能しますが、1つの単語だけでなく、ドキュメント全体のベクトル表現を取得することに関心があります。word2vecモデルを使用してそれを行うにはどうすればよいですか?

dog_sentence = model['it is a cute little dog']
KeyError: "word 'it is a cute little dog' not in vocabulary"

これらを多くのドキュメントに適用してから、そのトピックに関するクラスタリングモデルをトレーニングして、教師なし学習とトピックモデリングを行う予定です。

ゴジョモ

これは単語ベクトルのセットです。単語ベクトルを、文やドキュメントなどのテキストのより長い実行のためのベクトルに変換する単一の標準的な方法はありません。

テキスト内の各単語の単語ベクトルを単純に平均化してみることができます。(これを行うには、文字列テキスト全体を渡すのではなく、単語に分割し、各単語ベクトルを調べてから、それらすべてのベクトルを平均します。)

これはすばやく簡単に計算でき、一部のタスク、特に非常に短いテキストのトピック分析のベースラインとして問題なく機能します。ただし、文法や語順を考慮せず、すべての単語を他のすべての単語で希釈するため、より高度な分析よりもパフォーマンスが優れていることがよくあります。

また、単語ベクトルのセットは、ニュース記事から2013年頃にGoogleによって計算されました。それ以来生じてきた言葉や言葉の意味を見逃し、そのベクトルはニュース記事の書き方によって味付けされます-他の言語領域とは大きく異なります。十分なデータがある場合は、独自のドメインのテキストで独自の単語ベクトルをトレーニングすると、単語の範囲とベクトルの関連性の両方でパフォーマンスが向上する可能性があります。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

SpaCy:Googleニュースのword2vecベクトルを読み込む方法は?

分類Dev

Python word2vec、doc2vecを使用して2つのドキュメント間の類似性を計算する

分類Dev

word2vecを使用してk-meansのテキストドキュメント間の距離をどのように計算しますか?

分類Dev

word2vec:事前にトレーニングされたモデルを使用したユーザーレベルのドキュメントレベルの埋め込み

分類Dev

GensimのWord2Vecは提供されたドキュメントをトレーニングしていません

分類Dev

word2vecで各トレーニング反復後にベクトルを取得するにはどうすればよいですか?

分類Dev

doc2vecモデルで事前トレーニングされたword2vecベクトルを使用する方法は?

分類Dev

非線形性のあるスタックオートエンコーダーを使用してWord2vecをトレーニングできますか?

分類Dev

不明な単語のランダムなword2vecベクトルを取得する方法は?

分類Dev

VBAを使用してWordラベルシートを作成し、不要なドキュメントを追加する

分類Dev

Gensimを使用してWord2vecモデルをトレーニングする

分類Dev

特定のドキュメントのtfidfベクトルを取得する方法

分類Dev

word2vecを使用してテキスト分類モデルを修正(改善)する方法

分類Dev

word2vecベクトルから単語を取得する方法は?

分類Dev

Mongodb:データベースから最初のドキュメントを取得して削除する方法

分類Dev

XProcを使用してxmlドキュメントの各ノードをファイルとして保存する

分類Dev

マングースで地理空間クエリを使用してドキュメントを取得する方法

分類Dev

マングースで地理空間クエリを使用してドキュメントを取得する方法

分類Dev

H2Oは、h2o word2vecで使用するための事前トレーニング済みのベクターを提供しますか?

分類Dev

Elasticsearch-Java RestHighLevelClient-スクロールAPIを使用してすべてのドキュメントを取得する方法

分類Dev

ショートカットを使用してhtmlベースドキュメントを取得する

分類Dev

Word2Vecを使用して単一の単語の単一のベクトルを取得するにはどうすればよいですか?

分類Dev

アイコンとスライドメニューを使用してSherlockアクションバーのテキストを中央揃えにする方法

分類Dev

コンテキストメニューを取得しながら、onClickイベントを実装する方法

分類Dev

コンテキストメニューを取得しながら、onClickイベントを実装する方法

分類Dev

ドキュメントルート外のエイリアスディレクトリで.htaccessを使用して書き換えルールを使用する方法

分類Dev

マングースを使用して無制限のネストされたレベルでドキュメントを設定する方法

分類Dev

メニュー項目/オプションを使用して、アクティブなテキストをGoogleドキュメントからスプレッドシートにコピーする方法

分類Dev

Apacheを使用してドキュメントルート外のファイルにアクセスする

Related 関連記事

  1. 1

    SpaCy:Googleニュースのword2vecベクトルを読み込む方法は?

  2. 2

    Python word2vec、doc2vecを使用して2つのドキュメント間の類似性を計算する

  3. 3

    word2vecを使用してk-meansのテキストドキュメント間の距離をどのように計算しますか?

  4. 4

    word2vec:事前にトレーニングされたモデルを使用したユーザーレベルのドキュメントレベルの埋め込み

  5. 5

    GensimのWord2Vecは提供されたドキュメントをトレーニングしていません

  6. 6

    word2vecで各トレーニング反復後にベクトルを取得するにはどうすればよいですか?

  7. 7

    doc2vecモデルで事前トレーニングされたword2vecベクトルを使用する方法は?

  8. 8

    非線形性のあるスタックオートエンコーダーを使用してWord2vecをトレーニングできますか?

  9. 9

    不明な単語のランダムなword2vecベクトルを取得する方法は?

  10. 10

    VBAを使用してWordラベルシートを作成し、不要なドキュメントを追加する

  11. 11

    Gensimを使用してWord2vecモデルをトレーニングする

  12. 12

    特定のドキュメントのtfidfベクトルを取得する方法

  13. 13

    word2vecを使用してテキスト分類モデルを修正(改善)する方法

  14. 14

    word2vecベクトルから単語を取得する方法は?

  15. 15

    Mongodb:データベースから最初のドキュメントを取得して削除する方法

  16. 16

    XProcを使用してxmlドキュメントの各ノードをファイルとして保存する

  17. 17

    マングースで地理空間クエリを使用してドキュメントを取得する方法

  18. 18

    マングースで地理空間クエリを使用してドキュメントを取得する方法

  19. 19

    H2Oは、h2o word2vecで使用するための事前トレーニング済みのベクターを提供しますか?

  20. 20

    Elasticsearch-Java RestHighLevelClient-スクロールAPIを使用してすべてのドキュメントを取得する方法

  21. 21

    ショートカットを使用してhtmlベースドキュメントを取得する

  22. 22

    Word2Vecを使用して単一の単語の単一のベクトルを取得するにはどうすればよいですか?

  23. 23

    アイコンとスライドメニューを使用してSherlockアクションバーのテキストを中央揃えにする方法

  24. 24

    コンテキストメニューを取得しながら、onClickイベントを実装する方法

  25. 25

    コンテキストメニューを取得しながら、onClickイベントを実装する方法

  26. 26

    ドキュメントルート外のエイリアスディレクトリで.htaccessを使用して書き換えルールを使用する方法

  27. 27

    マングースを使用して無制限のネストされたレベルでドキュメントを設定する方法

  28. 28

    メニュー項目/オプションを使用して、アクティブなテキストをGoogleドキュメントからスプレッドシートにコピーする方法

  29. 29

    Apacheを使用してドキュメントルート外のファイルにアクセスする

ホットタグ

アーカイブ