テキストファイル内のすべての単語の頻度を調べて、それらから最も頻繁に出現する単語を見つけたいと思います。誰かが私にそのために使用されるコマンドを手伝ってくれませんか。
import nltk
text1 = "hello he heloo hello hi " // example text
fdist1 = FreqDist(text1)
上記のコードを使用しましたが、問題は、単語の頻度を指定するのではなく、すべての文字の頻度を表示することです。また、テキストファイルを使用してテキストを入力する方法を知りたいです。
私はあなたが例を使用しているのを見ました、そしてあなたが見ているのと同じものを見ました、それが正しく機能するために、あなたはスペースで文字列を分割しなければなりません。これを行わないと、各文字がカウントされているように見えます。これは、あなたが見ていたものです。これは、文字ではなく、各単語の適切なカウントを返します。
import nltk
text1 = 'hello he heloo hello hi '
text1 = text1.split(' ')
fdist1 = nltk.FreqDist(text1)
print (fdist1.most_common(50))
ファイルから読み取り、単語数を取得したい場合は、次のように行うことができます。
hello he heloo hello hi
my username is heinst
your username is frooty
import nltk
with open ("input.txt", "r") as myfile:
data=myfile.read().replace('\n', ' ')
data = data.split(' ')
fdist1 = nltk.FreqDist(data)
print (fdist1.most_common(50))
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加