Pandas read_csvは、名前が指定されている場合、不良行の例外を発生させません

debugcn 投稿 Dev

アダムジェンセン

パンダ read_csv例外（上げるerror_bad_linesをあまりにも多くのフィールドを持つ行に遭遇したとき）。ただし、引数名が指定されている場合は発生しません。

次の形式のcsvファイルの例：

1, 2, 3
1, 2, 3
1, 2, 3, 4

pd.read_csv（filepath、header = None）で読み取ると、ParserErrorが正しく発生します：データのトークン化中にエラーが発生しました。Cエラー：列が追加されたため、3行目に3つのフィールドがあり、4つが表示されました。

ただし、「names」が引数として指定されている場合：

>>> pd.read_csv(filepath, names=['A', 'B', 'C'], header=None)
   A  B  C
0  1  2  3
1  1  2  3
2  1  2  3

エラーは発生せず、スキップする必要のある「長すぎる/悪い」行が含まれています。

名前を指定し、それでもParserErrorを発生させて、長すぎる/不良行をerror_bad_lines = Falseで削除できるようにする方法はありますか？

user59271

これに対するきちんとしたパンダの解決策はないようです。あなたができることは、PythonでファイルCSVをロードしてopen()から、ファイル文字列に新しいヘッダーを追加することです。この方法では、ディスク上の元のファイルを変更しません。その後、StringIOパンダでファイル文字列をロードできます。これにより、エラーが保持されます。

#python3
from io import StringIO
import pandas as pd
lines = open('./test.csv', 'r').readlines()
lines = ['A, B, C'] + lines
fileString = '\n'.join(lines)
df = pd.read_csv(StringIO(fileString), sep=",")

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-1

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

Pandas read_csvは、名前が指定されている場合、不良行の例外を発生させません

Pandas read_csvは、名前が指定されている場合、不良行の例外を発生させません

csvが変数として保存されている場合、どのようにpandas read_csv（）メソッドを使用しますか？

Pandas DataFrameは、リストで名前が指定されている複数の列の値に基づいて行を選択します

指定された整数値が含まれていない場合は行を削除します (Pandas)

pandas read_csvを使用する場合は、区切り文字を一部のタブのみに制限してください

Pandasデータフレームは、列に指定された部分文字列が含まれている場合に行を保持します

Pandas read_csvがUnicodeDecodeErrorでgzip圧縮されたファイルで失敗する： 'utf-8'コーデックは位置1のバイト0x8bをデコードできません：無効な開始バイト

Pandas Dataframeは、条件が満たされた場合に最初の発生を検出します

pandas read_csv列のdtypeは10進数に設定されていますが、文字列に変換されます

Pandasのread_csv関数を使用する場合、いくつかのセルは全文ではなく「...」で終わります。助言がありますか？

Pandas read_csvは、列数を変更する場合にヘッダー名を追加します

"ドライバー名が指定されていません" pandasデータフレームをSQL Serverテーブルに書き込んでいます

Pandas Groupbyは、特定の値の組み合わせが発生する行を削除します

モジュール 'pandas'には属性 'read_csvがありません

AttributeError：モジュール 'pandas'には属性 'read_csv'がありません

Python名エラー。Pandasデータフレームの使用中に名前が定義されていません

Python：pandas.DataFrame.to_csvが出力列に入力されていません

Pythonファイルを.exeファイルとして実行できず、エラーが発生します 'ModuleNotFoundError：' pandas ''という名前のモジュールがありません

pandas.read_csvは、比較的小さい寸法にもかかわらず、メモリエラーを発生させます

pandas / sqlalchemy / pyodbc：SELECTの前にUPDATEステートメントが表示された場合、結果オブジェクトはストアドプロシージャから行を返しません

相互参照がキャッシュされている場合、相互参照の名前変更は発生しません

未定義の変数は、その名前が定義された反復のスコープ内にある場合、エラーを発生させません

接続がRabbitMQによってブロックされている場合、Springamqpはタイムアウト例外を発生させません

プロパティがデコレータとして使用されている場合、セッターは例外を発生させません

列名が数字で始まる場合は、pandas列を削除してください

pandasはDatetimeIndex変換でValueErrorを発生させます

pandas to_numeric errors = 'coerce'は、int64の外の番号の場合は強制されません

pandas datareaderはAttributeErrorを発生させます：モジュール 'pandas.io'には属性 'data'がありません

pandas groupbyの後にペアの行を結合し、DFでIDが2回発生しなかった場合はNaN値を指定します

pandas dataframelocが正しい名前を識別できません