Gensim: LDA モデルをトレーニングできません

debugcn 投稿 Dev

7アヒル

文章のリストがあり、チュートリアルの指示に従って、そこからコーパスを作成します。

texts = [[word for word in document.lower().split() if word.isalpha()] for document in documents]
corpus = corpora.Dictionary(texts)

このコーパスで LDA モデルをトレーニングし、トピックのキーワードを抽出したいと思います。

lda = models.LdaModel(corpus, num_topics=10)

しかし、トレーニング中にエラーが発生しました: TypeError: 'int' object is not iterable. 私は何を間違っていますか？コーパスはどのような形式にする必要がありますか?

アミール

コーパスを作成した後doc2bow、単語からハッシュを作成する単一のコーパスを作成する必要があります (いわゆる「ハッシュトリック」 )。

texts = [[word for word in document.lower().split() if word.isalpha()] for document in documents]
corpus = corpora.Dictionary(texts)
hashed_corpus = [corpora.doc2bow(text) for text in texts]

その後、次を使用してモデルをトレーニングできますhashed_corpus。

lda = models.LdaModel(corpus, id2word=corpus, num_topics=5)

id2word ハッシュから単語にトピックをマッピングし、それを使用すると、トピックを数字ではなく単語として取得できます。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-07-30

コメントを追加

サインイン

分類Dev

gensimのLDAモデルのシード値を修正できません

分類Dev

LDAトピックモデリングにgensimを使用したpythonIndexError

分類Dev

python IndexError using gensim for LDA Topic Modeling

分類Dev

LDA：トピックモデルgensimは同じトピックのセットを提供します

分類Dev

Python Gensim：LDAモデルを使用してドキュメントの類似性を計算する方法？

分類Dev

Python LDA gensim「DeprecationWarning：無効なエスケープシーケンス」

分類Dev

gensim LDAモジュール：予測中は常に均一な局所分布を取得します

分類Dev

gensimでLDAを実行するとインデックスエラーが発生する

分類Dev

gensim LDAモデルの新しいドキュメントにTF-IDFを適用する必要がありますか？

分類Dev

トピックリスト（gensim lda get_document_topics（）から）をDataFrame形式に変更する方法

分類Dev

Gensimパッケージの使用中にLDAの出力から数字と記号を削除する方法は？

分類Dev

gensimの事前トレーニング済みモデルをdoc2vecモデルに使用できますか？

分類Dev

Python-gensimで潜在的ディリクレ割り当て（LDA）を使用して、ユニグラムの代わりにバイグラムトピックを抽象化する方法は？

分類Dev

gensim LDAを使用してドキュメントの完全なトピック配布を取得するにはどうすればよいですか？

分類Dev

How does LDA (Latent Dirichlet Allocation) inference from `gensim` work for a new data?

分類Dev

how to remove numbers and symbols from output of LDA while using Gensim package?

分類Dev

「gensim」をインストールできません

分類Dev

gensimをインストールできません

分類Dev

gensimでDoc2vecをトレーニングするためにマルチコアCPUを効率的に使用することはできません

分類Dev

gensimのLDAを使用してクエリからテキストを取得するにはどうすればよいですか？

分類Dev

事前にトレーニングされたGensimフレーズモデルはありますか？

分類Dev

事前にトレーニングされたモデルを使用したgensimでは、wmdistanceは適切に機能していますが、n_similarityは機能していません

分類Dev

Gensimを使用してWord2vecモデルをトレーニングする

分類Dev

gensim：Googleの事前トレーニング済みword2vecモデルをロードすると、「Doc2Vec」オブジェクトに属性「intersect_word2vec_format」がありません

分類Dev

Python：gensim：RuntimeError：モデルをトレーニングする前に、まず語彙を構築する必要があります

分類Dev

Sagemaker LDAトピックモデル-トレーニング済みモデルのパラメーターにアクセスする方法は？コヒーレンスをキャプチャする簡単な方法もあります

分類Dev

LDAモデル予測の不整合

分類Dev

gensimを使用してトレーニング済みのファストテキストモデルをロードする際の問題

分類Dev

gensimのpipインストール-'ascii 'コーデックは53桁目のバイト0xe2をデコードできません

Related 関連記事

記事