私はgensimのライブラリを使用してdoc2Vecモデルをトレーニングしてきました。トレーニング用にさまざまなデータセットを試した後、doc2Vecモデルの理想的なトレーニングデータサイズはどうあるべきかについてかなり混乱しています。
ここで私の理解を共有します。お気軽に訂正してください/変更を提案してください-
しかし、どちらの場合も、トレーニングに使用される単語の数はいくつですか?
一般的な注意点として、エラーグラフが「エルボーポイント」に達したときにMLモデルのトレーニングを停止します。この場合、それ以上のトレーニングはエラーの減少に大きく役立ちません。この方向で行われている研究はありますか?肘に達した後にdoc2Vecモデルのトレーニングが停止されますか?
絶対的なガイドラインはありません。データセットと特定のアプリケーションの目標に大きく依存します。公開されたDoc2Vec
作業で使用されるデータセットのサイズについては、次の場所でいくつか説明されています。
doc2vecで良好なパフォーマンスを実現するために必要な最小データセットサイズはどれくらいですか?
汎用コーパスがドメインの語彙と一致しない場合(同じ単語を含む、または同じ意味で単語を使用する)、それは「大量のデータ」だけでは修正できない問題です。より多くのデータは、ドメイン固有の値ではなく、一般的な値に向けて単語のコンテキストと表現を「プル」するだけです。
特定のデータと目標を使用した結果で十分かどうか、またはより多くのデータやその他のトレーニングの調整で改善できるかどうかを測定できるように、独自の定量的で自動化された評価/スコアリング方法が本当に必要です。
パラメータを微調整すると、薄いデータを最大限に活用できる場合があります。特に、トレーニングの反復回数を増やしたり、モデルを小さくしたり(ベクトル次元を小さくしたり)すると、小さなコーパスの問題をわずかに相殺できる場合があります。しかし、Word2Vec
/Doc2Vec
は、微妙に変化するドメイン固有のデータの多くから本当に恩恵を受けています-トレーニング中のすべてのテキスト例の間の絶え間ない漸進的な綱引きは、最終的な表現が有用な配置の星座に落ち着くのに役立ちます、必要な相対距離/相対方向のプロパティを使用します。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加