別の言語でトレーニングされたWord2vecモデルの精度を測定する方法は？

debugcn 投稿 Dev

タルカ

私はword2vecモデルを英語ではなく、アジア言語の「シンハラ語」用にトレーニングしました。後のフェーズでは、この訓練されたモデルを使用して、シンハラ語文書の盗用を検出するために文の類似性を取得します。訓練されたモデルの精度を測定する方法を教えてください。私は大学生です。私はこれらのことについてこれまでの知識がありません。

ゴジョモ

word2vecモデルの品質または「精度」の普遍的な尺度はありません。

一般的に報告されている「正確さ」は、通常、Googleが元のword2vecペーパーで使用した（そしてソースコードリリースに含まれている）一連の英語の類推質問に基づいています。たとえば、次を参照してください。

https://github.com/tmikolov/word2vec/blob/master/questions-words.txt

別の言語で同様の計算を行うには、その言語で同様の評価質問のセットを提供する必要があります。シンハラ語や他の言語に関するそのような質問のコレクションは知らないので、自分で見つけたり作成したりする必要があるかもしれません。（同じ形式で代替ファイルを作成し、既存の評価方法を使用して、代替ファイルを指定することができます。）

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-08-14

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

別の言語でトレーニングされたWord2vecモデルの精度を測定する方法は？

別の言語でトレーニングされたWord2vecモデルの精度を測定する方法は？

doc2vecモデルで事前トレーニングされたword2vecベクトルを使用する方法は？

新しい語彙でword2vecモデルを段階的にトレーニングする方法

TensorflowでRNN言語モデルをトレーニングする際の精度を計算する方法は？

R Studioでトレーニングされたknnモデルの精度をテストする方法は？

ウィキペディアで事前トレーニングされたWord2Vecモデルを使用する

Gensim Word2Vecは、事前にトレーニングされたモデルから単語ベクトルのマイナーセットを選択します

私がword2vecモデルをトレーニングするために使用するすべての単語は、model.vocabに含まれている必要がありますね。

Doc2vecモデルの精度を測定する方法は？

事前にトレーニングされたグローブモデルをgensimload_word2vec_formatでロードする方法は？

TensorFlowで事前トレーニング済みの単語埋め込み（word2vecまたはGlove）を使用する

事前にトレーニングされたWord2vecモデルファイルをロードして再利用するにはどうすればよいですか？

非常に大きなデータセットでWord2vecをトレーニングする方法は？

Word2Vecはいくつのエポックをトレーニングする必要がありますか？推奨されるトレーニングデータセットは何ですか？

Kerasでトレーニングされたモデルを使用して入力画像を予測する方法は？

トレーニング済みのGloVe / word2vecモデルを使用して、記事からキーワードを抽出するにはどうすればよいですか？

Word2Vecで事前トレーニング済みモデルをマージしますか？

Gensimを使用してWord2vecモデルをトレーニングする

Gensim Doc2vecモデル：事前にトレーニングされたdoc2vecモデルを使用して取得されたコーパスの類似性を計算する方法は？

word2vec：事前にトレーニングされたモデルを使用したユーザーレベルのドキュメントレベルの埋め込み

バッチトレーニングされたモデルを使用して、単一の入力で予測する方法は？

H2Oは、h2o word2vecで使用するための事前トレーニング済みのベクターを提供しますか？

自己学習したword2vecモデルで単語を削除する方法

s3から事前トレーニングされたモデルを使用していくつかのデータを予測する方法は？

word2vecトレーニング済みモデルにキーが存在するかどうかを確認する方法

gensim：Googleの事前トレーニング済みword2vecモデルをロードすると、「Doc2Vec」オブジェクトに属性「intersect_word2vec_format」がありません

事前にトレーニングされたword2vecから文の類似性を見つけるためのKeras

GensimのWord2Vecは提供されたドキュメントをトレーニングしていません

word2vecで各トレーニング反復後にベクトルを取得するにはどうすればよいですか？

KerasモデルでトレーニングされたTensorflow2。*を.onnx形式に変換する方法は？