トピックモデリングにgensimを使用しています。を使用してコーパスを作成しました
wordDict = corpora.Dictionary(trimmedTextTokens)
gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens]
ここで、trimmedTextTokensは、ストップワードを削除した結果です。ここで、制限された語彙または構築された語彙のリストにない用語をコーパスから除外したいと思います。何か案は?ありがとうございました!!
制限された語彙リストが次の名前の変数に含まれrestrictedVocabularyList
ていると仮定します。
wordDict = corpora.Dictionary(trimmedTextTokens)
gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens if text in restrictedVocabularyList]
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加