word2vecベクトル[gensimライブラリ]の「サイズ」の意味は何ですか？

debugcn 投稿 Dev

LuffyM

辞書に1000語（A1、A2、..。、A1000）があると仮定します。私が理解しているように、単語埋め込みまたはword2vecメソッドでは、各要素が辞書内の残りの単語との類似性を表すベクトルによって辞書内の各単語を表すことを目的としています。各ベクトルに999の次元があるべきである、または各word2vecベクトルのサイズが999である必要があると言うのは正しいですか？

しかし、Gensim Pythonを使用すると、Word2vecの「size」パラメーターの値を変更できます。この場合はsize = 100としましょう。では、「size = 100」とはどういう意味ですか？（x1、x2、...、x100）で表されるA1の出力ベクトルを抽出すると、この場合、x1、x2、...、x100は何を表しますか？

ゴジョモ

「[word2vec]は、各要素がその単語と辞書内の残りの単語との類似性を表すベクトルによって辞書内の各単語を表すことを目的としている」というわけではありません。

むしろ、たとえば100のような特定のターゲット次元が与えられると、Word2Vecアルゴリズムは、近くの単語を予測するトレーニングタスクで、100次元の単語ベクトルを徐々にトレーニングします。

この反復プロセスは、類似性にほぼ比例して、互いに「近い」に関連する単語を強制する傾向があります。さらに、この100次元空間のさまざまな「方向」は、人間が認識できる意味カテゴリと一致する傾向があります。したがって、有名な「wv（king）-wv（man）+ wv（woman）〜= wv（queen）」の例は、「男性性/女性性」と「ロイヤルティ」が空間内で漠然と一貫した領域/方向であるため、よく機能します。

個々の寸法だけでは、何の意味もありません。トレーニングプロセスにはランダム性が含まれ、時間の経過とともに「機能するものは何でも」実行されます。意味のある方向は、寸法軸と完全に一致しているわけではありませんが、すべての寸法で角度が付けられています。（つまり、av[77]が性別のような次元であることに気付くことはありません。むしろ、男性と女性のような単語のペアを数十個交互に取り、それらのすべての違いを平均すると、約100-が見つかる可能性があります。次元ベクトル-性別の方向性を示唆する次元。）

任意の「サイズ」を選択できますが、十分なトレーニングデータがある場合は、100〜400が一般的な値です。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-8

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

word2vecベクトル[gensimライブラリ]の「サイズ」の意味は何ですか？

word2vecベクトル[gensimライブラリ]の「サイズ」の意味は何ですか？

word2vecの語彙サイズとベクトルサイズ

厄介なベクトルを返すGensimのword2vec

gensimのword2vecのレイヤーサイズ

word2vecで互いにスカラー倍数である単語ベクトル間に期待される意味関係は何ですか？

Python：GensimWord2vecモデルクラスの「サイズ」パラメータとは何ですか

gensim word2vecで複数のモデルファイルが作成されるのはなぜですか？

gensimライブラリを使用したトレーニング中のSkip-gramword2vecとCBOWw2vの違いは何ですか？

最小サイズのライブラリとは何ですか？

Word2vecベクトルの長さにはどのような意味がありますか？

gensim word2vecの出力埋め込み（出力ベクトル）にアクセスするにはどうすればよいですか？

パッケージword2vecからの関数word2vecの入力ファイル形式は何ですか？

word2vecの単語のベクトルは何を表していますか？

クラスでのプライベート名の意味は何ですか

ILNumericsライブラリの「（！0）」の意味は何ですか？

react-reduxアプリのvertxイベントバスのライフサイクルは何ですか？

なぜスパークのWord2Vecはベクトルを返すのですか？

最新のサポートライブラリは何ですか

不明な単語のランダムなword2vecベクトルを取得する方法は？

Gensim Word2Vecは、事前にトレーニングされたモデルから単語ベクトルのマイナーセットを選択します

標準Cライブラリのバッファサイズの特別なマクロは何ですか？

Gensim Word2Vecモデルでの単語とベクトルの一致

Python gensimは、ベクトルからword2vecモデルを作成します（ndarray内）

GStreamerの「ブラックリスト」の意味は何ですか？

パブリッシュ/サブスクライブモデル、トピックの構造は何ですか？

word2vecチュートリアルの例は、潜在的な次善の実装を意味しますか？

gensim Word2Vec埋め込みベクトルから埋め込みを文化する方法は？

Spark MLib Word2Vecエラー：語彙サイズは> 0である必要があります

ODataコントローラーのライフサイクルイベントOnExecuting / OnExecutedとは何ですか？

ラスターグラフィックス（ブレゼンハムのアルゴリズム）でのサンプリング、スキャンラインの意味は何ですか