Pandas read_csvは、名前が指定されている場合、不良行の例外を発生させません

アダムジェンセン

パンダ read_csv例外(上げるerror_bad_linesをあまりにも多くのフィールドを持つ行に遭遇したとき)。ただし、引数が指定されている場合は発生しません

次の形式のcsvファイルの例:

1, 2, 3
1, 2, 3
1, 2, 3, 4

pd.read_csv(filepath、header = None)で読み取ると、ParserErrorが正しく発生します:データのトークン化中にエラーが発生しました。Cエラー:列が追加されたため、3行目に3つのフィールドがあり、4つが表示されました。

ただし、「names」が引数として指定されている場合:

>>> pd.read_csv(filepath, names=['A', 'B', 'C'], header=None)
   A  B  C
0  1  2  3
1  1  2  3
2  1  2  3

エラーは発生せず、スキップする必要のある「長すぎる/悪い」行が含まれています。

名前を指定し、それでもParserErrorを発生させて、長すぎる/不良行をerror_bad_lines = Falseで削除できるようにする方法はありますか?

user59271

これに対するきちんとしたパンダの解決策はないようです。あなたができることは、PythonでファイルCSVをロードしてopen()から、ファイル文字列に新しいヘッダーを追加することです。この方法では、ディスク上の元のファイルを変更しません。その後、StringIOパンダでファイル文字列をロードできますこれにより、エラーが保持されます。

#python3
from io import StringIO
import pandas as pd
lines = open('./test.csv', 'r').readlines()
lines = ['A, B, C'] + lines
fileString = '\n'.join(lines)
df = pd.read_csv(StringIO(fileString), sep=",")

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

csvが変数として保存されている場合、どのようにpandas read_csv()メソッドを使用しますか?

分類Dev

Pandas DataFrameは、リストで名前が指定されている複数の列の値に基づいて行を選択します

分類Dev

指定された整数値が含まれていない場合は行を削除します (Pandas)

分類Dev

pandas read_csvを使用する場合は、区切り文字を一部のタブのみに制限してください

分類Dev

Pandasデータフレームは、列に指定された部分文字列が含まれている場合に行を保持します

分類Dev

Pandas read_csvがUnicodeDecodeErrorでgzip圧縮されたファイルで失敗する: 'utf-8'コーデックは位置1のバイト0x8bをデコードできません:無効な開始バイト

分類Dev

Pandas Dataframeは、条件が満たされた場合に最初の発生を検出します

分類Dev

pandas read_csv列のdtypeは10進数に設定されていますが、文字列に変換されます

分類Dev

Pandasのread_csv関数を使用する場合、いくつかのセルは全文ではなく「...」で終わります。助言がありますか?

分類Dev

Pandas read_csvは、列数を変更する場合にヘッダー名を追加します

分類Dev

"ドライバー名が指定されていません" pandasデータフレームをSQL Serverテーブルに書き込んでいます

分類Dev

Pandas Groupbyは、特定の値の組み合わせが発生する行を削除します

分類Dev

モジュール 'pandas'には属性 'read_csvがありません

分類Dev

AttributeError:モジュール 'pandas'には属性 'read_csv'がありません

分類Dev

Python名エラー。Pandasデータフレームの使用中に名前が定義されていません

分類Dev

Python:pandas.DataFrame.to_csvが出力列に入力されていません

分類Dev

Pythonファイルを.exeファイルとして実行できず、エラーが発生します 'ModuleNotFoundError:' pandas ''という名前のモジュールがありません

分類Dev

pandas.read_csvは、比較的小さい寸法にもかかわらず、メモリエラーを発生させます

分類Dev

pandas / sqlalchemy / pyodbc:SELECTの前にUPDATEステートメントが表示された場合、結果オブジェクトはストアドプロシージャから行を返しません

分類Dev

相互参照がキャッシュされている場合、相互参照の名前変更は発生しません

分類Dev

未定義の変数は、その名前が定義された反復のスコープ内にある場合、エラーを発生させません

分類Dev

接続がRabbitMQによってブロックされている場合、Springamqpはタイムアウト例外を発生させません

分類Dev

プロパティがデコレータとして使用されている場合、セッターは例外を発生させません

分類Dev

列名が数字で始まる場合は、pandas列を削除してください

分類Dev

pandasはDatetimeIndex変換でValueErrorを発生させます

分類Dev

pandas to_numeric errors = 'coerce'は、int64の外の番号の場合は強制されません

分類Dev

pandas datareaderはAttributeErrorを発生させます:モジュール 'pandas.io'には属性 'data'がありません

分類Dev

pandas groupbyの後にペアの行を結合し、DFでIDが2回発生しなかった場合はNaN値を指定します

分類Dev

pandas dataframelocが正しい名前を識別できません

Related 関連記事

  1. 1

    csvが変数として保存されている場合、どのようにpandas read_csv()メソッドを使用しますか?

  2. 2

    Pandas DataFrameは、リストで名前が指定されている複数の列の値に基づいて行を選択します

  3. 3

    指定された整数値が含まれていない場合は行を削除します (Pandas)

  4. 4

    pandas read_csvを使用する場合は、区切り文字を一部のタブのみに制限してください

  5. 5

    Pandasデータフレームは、列に指定された部分文字列が含まれている場合に行を保持します

  6. 6

    Pandas read_csvがUnicodeDecodeErrorでgzip圧縮されたファイルで失敗する: 'utf-8'コーデックは位置1のバイト0x8bをデコードできません:無効な開始バイト

  7. 7

    Pandas Dataframeは、条件が満たされた場合に最初の発生を検出します

  8. 8

    pandas read_csv列のdtypeは10進数に設定されていますが、文字列に変換されます

  9. 9

    Pandasのread_csv関数を使用する場合、いくつかのセルは全文ではなく「...」で終わります。助言がありますか?

  10. 10

    Pandas read_csvは、列数を変更する場合にヘッダー名を追加します

  11. 11

    "ドライバー名が指定されていません" pandasデータフレームをSQL Serverテーブルに書き込んでいます

  12. 12

    Pandas Groupbyは、特定の値の組み合わせが発生する行を削除します

  13. 13

    モジュール 'pandas'には属性 'read_csvがありません

  14. 14

    AttributeError:モジュール 'pandas'には属性 'read_csv'がありません

  15. 15

    Python名エラー。Pandasデータフレームの使用中に名前が定義されていません

  16. 16

    Python:pandas.DataFrame.to_csvが出力列に入力されていません

  17. 17

    Pythonファイルを.exeファイルとして実行できず、エラーが発生します 'ModuleNotFoundError:' pandas ''という名前のモジュールがありません

  18. 18

    pandas.read_csvは、比較的小さい寸法にもかかわらず、メモリエラーを発生させます

  19. 19

    pandas / sqlalchemy / pyodbc:SELECTの前にUPDATEステートメントが表示された場合、結果オブジェクトはストアドプロシージャから行を返しません

  20. 20

    相互参照がキャッシュされている場合、相互参照の名前変更は発生しません

  21. 21

    未定義の変数は、その名前が定義された反復のスコープ内にある場合、エラーを発生させません

  22. 22

    接続がRabbitMQによってブロックされている場合、Springamqpはタイムアウト例外を発生させません

  23. 23

    プロパティがデコレータとして使用されている場合、セッターは例外を発生させません

  24. 24

    列名が数字で始まる場合は、pandas列を削除してください

  25. 25

    pandasはDatetimeIndex変換でValueErrorを発生させます

  26. 26

    pandas to_numeric errors = 'coerce'は、int64の外の番号の場合は強制されません

  27. 27

    pandas datareaderはAttributeErrorを発生させます:モジュール 'pandas.io'には属性 'data'がありません

  28. 28

    pandas groupbyの後にペアの行を結合し、DFでIDが2回発生しなかった場合はNaN値を指定します

  29. 29

    pandas dataframelocが正しい名前を識別できません

ホットタグ

アーカイブ