辞書に1000語(A1、A2、..。、A1000)があると仮定します。私が理解しているように、単語埋め込みまたはword2vecメソッドでは、各要素が辞書内の残りの単語との類似性を表すベクトルによって辞書内の各単語を表すことを目的としています。各ベクトルに999の次元があるべきである、または各word2vecベクトルのサイズが999である必要があると言うのは正しいですか?
しかし、Gensim Pythonを使用すると、Word2vecの「size」パラメーターの値を変更できます。この場合はsize = 100としましょう。では、「size = 100」とはどういう意味ですか?(x1、x2、...、x100)で表されるA1の出力ベクトルを抽出すると、この場合、x1、x2、...、x100は何を表しますか?
「[word2vec]は、各要素がその単語と辞書内の残りの単語との類似性を表すベクトルによって辞書内の各単語を表すことを目的としている」というわけではありません。
むしろ、たとえば100のような特定のターゲット次元が与えられると、Word2Vecアルゴリズムは、近くの単語を予測するトレーニングタスクで、100次元の単語ベクトルを徐々にトレーニングします。
この反復プロセスは、類似性にほぼ比例して、互いに「近い」に関連する単語を強制する傾向があります。さらに、この100次元空間のさまざまな「方向」は、人間が認識できる意味カテゴリと一致する傾向があります。したがって、有名な「wv(king)-wv(man)+ wv(woman)〜= wv(queen)」の例は、「男性性/女性性」と「ロイヤルティ」が空間内で漠然と一貫した領域/方向であるため、よく機能します。
個々の寸法だけでは、何の意味もありません。トレーニングプロセスにはランダム性が含まれ、時間の経過とともに「機能するものは何でも」実行されます。意味のある方向は、寸法軸と完全に一致しているわけではありませんが、すべての寸法で角度が付けられています。(つまり、av[77]
が性別のような次元であることに気付くことはありません。むしろ、男性と女性のような単語のペアを数十個交互に取り、それらのすべての違いを平均すると、約100-が見つかる可能性があります。次元ベクトル-性別の方向性を示唆する次元。)
任意の「サイズ」を選択できますが、十分なトレーニングデータがある場合は、100〜400が一般的な値です。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加