トレインデータでword2vecをトレーニングしますが、トレインデータにないテストデータからいくつかの単語があります。元のようにデータ分布または番号範囲に一致する単語ベクトルを生成するにはどうすればよいですか?
語彙に含まれる頻度の低い単語のリストを取得し、それらを平均して、未知の単語のおおよその単語ベクトルを取得できます。
または
さんがあなたのターゲットの未知の単語があるとしましょうw
、その文脈の中でc-2 c-1 w c1 c2
どこc-2
、c-1
、c1
およびc2
コンテキストの言葉です。未知の単語の適切な近似として、すべてのコンテキスト単語の埋め込みの平均を取ることができます。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加