Word2Vecは、どのようにして反意語がベクトル空間で遠く離れていることを保証しますか

debugcn 投稿 Dev

ボリスラフ・ストイロフ

大まかに言えば、word2vecのトレーニングは、同じコンテキストにあることが多い単語がベクトル空間にクラスター化されるプロセスです。平面上の単語をランダムにシャッフルすることから始め、反復ごとにますます多くのクラスターが形成されます。私はこれを理解したと思いますが、反意語であるか、同じ文脈でめったに出現しない単語が近くのクラスターになっていないことをどのように保証できますか？また、無関係な単語が、無関係でない単語よりも遠くにあることをどのようにして知ることができますか。

プルーン

Novakの応答についていくらか詳しく説明します。

あなたはword2vec意味的な意味を評価するためのツールと見なしているようです。結果の多くは意味と相関していますが、それはの機能ではありませんword2vec。むしろ、それは（やや大まかに）「関連性」と見なされる文脈相関を示します。

この「関連性」が特定の問題に適用される場合、特に報告可能な結果をサポートするために複数の「関連性」ヒットが必要な場合、全体的な効果は目前の問題に役立つことがよくあります。

あなたの場合、文学的対比または他の強調のために、単語とその反意語が互いに近くに現れることが多いことに注意してください。このように、それらは文脈上互いに非常に関連性があります。さまざまな形式の否定を識別して適切に変更できる前処理がない限り、ツールに適切なように、ベクトル化でそのようなペアが頻繁に表示されます。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-8

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

Word2Vecは、どのようにして反意語がベクトル空間で遠く離れていることを保証しますか

Word2Vecは、どのようにして反意語がベクトル空間で遠く離れていることを保証しますか

Word2Vecを使用して単一の単語の単一のベクトルを取得するにはどうすればよいですか？

word2vecの単語のベクトルは何を表していますか？

word2vec ベクトルをロードするにはどうすればよいですか?

word2vecを使用してk-meansのテキストドキュメント間の距離をどのように計算しますか？

Gensim Word2VecがCコンパイラを使用しているかどうかを確認するにはどうすればよいですか？

私はこれをforループで間違って書いていることを知っていますが、複数の文字を受け入れることができるように正しく書くにはどうすればよいですか？

doc2vecモデルを使用して、ドキュメントと比較した1つの単語またはいくつかの単語の類似性を計算するにはどうすればよいですか？

Word2vec gensimに単語とベクターを手動で追加するにはどうすればよいですか？

タスクが現在のスレッドで同期して実行されることを保証するにはどうすればよいですか？

コンストラクターサイズで渡される2つのベクトルが等しいことを保証するにはどうすればよいですか？

同じ長さのループがOpenMPスレッド間で同じように分離されることが保証されていますか

Reduxはどのようにして競合状態がないことを保証できますか？

Word2vecを使用して、単語のグループ内のどの2つの単語が最も類似しているかを判別します

iostreamが含まれていないことを保証するにはどうすればよいですか？

Kotlinの場所が私の場所から遠く離れているどうすればより正確にすることができますか

CPUがコア間でベクトルレジスタを共有していること、または各コアにプライベートレジスタがあることをどのように知ることができますか

与えられたクラスがどの名前空間に属しているかをどのように知ることができますか？

word2vecで各トレーニング反復後にベクトルを取得するにはどうすればよいですか？

gensim word2vecの出力埋め込み（出力ベクトル）にアクセスするにはどうすればよいですか？

使用するフォントがこの言語をサポートしていない場合、ラベルコントロールで日本語の文字を正しく表示するにはどうすればよいですか？

Word2vecベクトルの長さにはどのような意味がありますか？

ファイルハッシュは、ファイルが変更されていないことをどのように保証しますか？

Golang別のゴルーチンからアクセスされている間にデータがゴルーチンで終了することを保証するにはどうすればよいですか

Rの関数または演算がベクトル化されていることをどのように知ることができますか？

[Authorize]属性は、ユーザーがASP.NET MVCで認証されていることをどのように認識しますか？それは認証トークンを使用することによるものですか？

トレーニング済みのGloVe / word2vecモデルを使用して、記事からキーワードを抽出するにはどうすればよいですか？

PysparkとPCA：このPCAの固有ベクトルを抽出するにはどうすればよいですか？彼らが説明している分散の量をどのように計算できますか？

端末がNCURSESでUnicode /ワイド文字をサポートしていることをどのように保証できますか？

.txtファイルを単語の辞書に変換しようとしています。どこが間違っているのですか？（C＃）