大まかに言えば、word2vecのトレーニングは、同じコンテキストにあることが多い単語がベクトル空間にクラスター化されるプロセスです。平面上の単語をランダムにシャッフルすることから始め、反復ごとにますます多くのクラスターが形成されます。私はこれを理解したと思いますが、反意語であるか、同じ文脈でめったに出現しない単語が近くのクラスターになっていないことをどのように保証できますか?また、無関係な単語が、無関係でない単語よりも遠くにあることをどのようにして知ることができますか。
Novakの応答についていくらか詳しく説明します。
あなたはword2vec
意味的な意味を評価するためのツールと見なしているようです。結果の多くは意味と相関していますが、それはの機能ではありませんword2vec
。むしろ、それは(やや大まかに)「関連性」と見なされる文脈相関を示します。
この「関連性」が特定の問題に適用される場合、特に報告可能な結果をサポートするために複数の「関連性」ヒットが必要な場合、全体的な効果は目前の問題に役立つことがよくあります。
あなたの場合、文学的対比または他の強調のために、単語とその反意語が互いに近くに現れることが多いことに注意してください。このように、それらは文脈上互いに非常に関連性があります。さまざまな形式の否定を識別して適切に変更できる前処理がない限り、ツールに適切なように、ベクトル化でそのようなペアが頻繁に表示されます。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加