gensimを使用していますdoc2vec
。doc2vecから語彙のサイズを知る効率的な方法があるかどうか知りたいです。大まかな方法の1つは単語の総数を数えることですが、データが巨大な場合(1GB以上)、これは効率的な方法ではありません。
場合はmodel
、あなたの訓練を受けたDoc2Vecモデルであり、そして、ユニークワードの数は、あなたが適用した後に生き残った語彙のトークンmin_count
から提供されています:
len(model.wv.vocab)
トレーニングされたドキュメントタグの数は、次の場所から入手できます。
len(model.docvecs)
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加