私はword2vecモデルを英語ではなく、アジア言語の「シンハラ語」用にトレーニングしました。後のフェーズでは、この訓練されたモデルを使用して、シンハラ語文書の盗用を検出するために文の類似性を取得します。訓練されたモデルの精度を測定する方法を教えてください。私は大学生です。私はこれらのことについてこれまでの知識がありません。
word2vecモデルの品質または「精度」の普遍的な尺度はありません。
一般的に報告されている「正確さ」は、通常、Googleが元のword2vecペーパーで使用した(そしてソースコードリリースに含まれている)一連の英語の類推質問に基づいています。たとえば、次を参照してください。
https://github.com/tmikolov/word2vec/blob/master/questions-words.txt
別の言語で同様の計算を行うには、その言語で同様の評価質問のセットを提供する必要があります。シンハラ語や他の言語に関するそのような質問のコレクションは知らないので、自分で見つけたり作成したりする必要があるかもしれません。(同じ形式で代替ファイルを作成し、既存の評価方法を使用して、代替ファイルを指定することができます。)
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加