Chardetを使用して非常に大きなファイルのエンコーディングを見つける

debugcn 投稿 Dev

jbentley

Chardetタブ区切り形式の非常に大きなファイル（> 400万行）のエンコーディングを推測するために使用しようとしています。

現時点では、おそらくファイルのサイズが原因で、スクリプトが問題を抱えています。ファイルの最初のx行をロードするように絞り込みたいのですが、を使おうとすると問題が発生しますreadline()。

現状のスクリプトは次のとおりです。

import chardet
import os
filepath = os.path.join(r"O:\Song Pop\01 Originals\2017\FreshPlanet_SongPop_0517.txt")
rawdata = open(filepath, 'rb').readline()


print(rawdata)
result = chardet.detect(rawdata)
print(result)

動作しますが、ファイルの最初の行のみを読み取ります。単純なループを使用してreadline()複数回呼び出すという私の試みは、あまりうまくいきませんでした（おそらく、スクリプトがファイルをバイナリ形式で開いているという事実）。

1行の出力は {'encoding': 'Windows-1252', 'confidence': 0.73, 'language': ''}

読み取る行数を増やすと、エンコードの信頼性が向上するかどうか疑問に思いました。

どんな助けでも大歓迎です。

Lovethenakedgun

私はChardetに特に経験があるわけではありませんが、自分の問題をデバッグしているときにこの投稿に出くわし、答えがないことに驚いていました。これが遅すぎてOPの助けにならない場合は申し訳ありませんが、これに遭遇した他の人にとっては：

ファイルをさらに読み込むことで推測されるエンコードタイプが改善されるかどうかはわかりませんが、テストするために必要なのは次のとおりです。

import chardet
testStr = b''
count = 0
with open('Huge File!', 'rb') as x:
    line = x.readline()
    while line and count < 50:  #Set based on lines you'd want to check
        testStr = testStr + line
        count = count + 1
        line = x.readline()
print(chardet.detect(testStr))

私の例では、複数のエンコード形式があると思われるファイルがあり、「行ごと」にテストするために次のように記述しました。

import chardet
with open('Huge File!', 'rb') as x:
    line = x.readline()
    curChar = chardet.detect(line)
    print(curChar)
    while line:
        if curChar != chardet.detect(line):
            curChar = chardet.detect(line)
            print(curChar)
        line = x.readline()

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-05-30

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

Chardetを使用して非常に大きなファイルのエンコーディングを見つける

Chardetを使用して非常に大きなファイルのエンコーディングを見つける

* .txtファイル内の文字列を見つけてPythonを使用してUnicodeエンコーディングに置き換える方法は？

スケーラブルなソリューションを使用して、Javaの非常に大きなファイルから一意のレコードを見つける方法は？

chardetを使用してファイルのエンコーディングを推測しようとしています

Javaで非常に大きなファイルのコピーステータスを見つける方法

スペースを削除して解放するために大きなファイル/ディレクトリを見つけるコマンドラインの方法は何ですか？

Linuxでスクリプトを介してファイルのエンコーディングを見つける方法は？

テキストファイルのエンコーディングを見つける

別のディレクトリにある.srtファイルを見つけて、文字エンコードを変更します

2つのディレクトリツリーがある場合、どのファイルがコンテンツによって異なるかをどのようにして見つけることができますか？

beautifulsoupを使用するときに正しいエンコーディングを見つける方法は？

Haxeでsys.io.File.readを使用してファイルを読み取るときにファイルエンコーディングを指定する

デフォルトのエンコーディングを使用するコードを見つけるためにどのエンコーディングを使用しますか？

大きなサイズのファイルでコンテンツを見つける方法

スライスを使用してドメインの非常に大きなリストをフィルタリングする

2つのドライブ間の拡張子によってフィルタリングされ、各ファイルパスを保持する大きなサイズのファイルを堅牢にコピーしますか？

ElasticSearch-JavaAPIを使用して大きなファイルにインデックスを付ける

コマンドラインを使用して日付の大きなデータセットをフィルタリングする

特定の文字エンコーディングを使用してJavaでファイルを読み取る方法は？

そのコンテンツを使用するために大きなISOファイルをいくつかのディスクに書き込む方法は？

webpackバンドルファイルエラーをデバッグして、千の番号で構成されるバンドル内の正確なエラーを見つけるにはどうすればよいですか？reactJsの行の

グーグル翻訳は私のファイルのコーディングを見逃している

Path.GetInvalidPathCharsを使用して、より大きな文字列内のファイル名を見つける方法は？

動的データを使用して非常に大きなJSONファイルを解析する

バックスラッシュを使用した非常に大きなJSONファイルの解析（JSONエンコード）

ワンホットエンコーディングを大きなファイルに適用するにはどうすればよいですか？

C ++ 11を使用して、コンパイル時にプログラムでエンディアンを見つける

複雑なCPANディストリビューションをデバッグするときに、サブルーチン呼び出しのソースファイルを見つける方法は？

同じファイルシステムで異なるエンコーディングを使用してファイル名をエンコードできますか（Linuxの場合）

JDBCを使用してpostgresデータベースからファイルシステムに大きなファイルをストリーミングする