numpy genfromtxt / pandas read_csv; 引用符内のコンマは無視してください

debugcn 投稿 Dev

アトム33ls

次のa.dat内容のファイルを考えてみましょう。

address 1, address 2, address 3, num1, num2, num3
address 1, address 2, address 3, 1.0, 2.0, 3
address 1, address 2, "address 3, address4", 1.0, 2.0, 3

でインポートしようとしていnumpy.genfromtxtます。ただし、関数は行3に追加の列を表示します。同様のエラーが発生しpandas.read_csvます。

np.genfromtxt('a.dat',delimiter=',',dtype=None,skiprows=1)

ValueError: Some errors were detected !
    Line #3 (got 7 columns instead of 6)

そして

pandas read_csv sort of works - but it gives me an unaligned data structure:

pd.read_csv('a.dat')

pandas.parser.CParserError: Error tokenizing data. C error: Expected 6 fields in line 3, saw 7

これを補うための入力パラメータを見つけようとしています。numpyndarrayまたはpandasデータフレームで終わってもかまいません。

内に設定できるパラメータgenfromtxtやread_csv、スピーチマーク内のカンマを無視できるパラメータはありますか？

このように定義さread_csvれたquotechar='"'パラメータが含まれていることに注意してください。

quotechar：文字列（長さ1）引用符で囲まれた項目の開始と終了を示すために使用される文字。引用されたアイテムには区切り文字を含めることができ、無視されます。

これは、read_csvがデフォルトで私の場合に機能するはずのように私に読みますが、そうではありません。

ファイルを前処理してコンマを取り除くことができることがわかります-可能であればそれを避けたいのですが、これが唯一の方法である場合は提案を歓迎します。

アトム33ls

なんとかこれを見つけることができました：

私が見逃していた重要なパラメータはskipinitialspace=True-これは「コンマ区切り文字の後のスペースを処理する」です

a=pd.read_csv('a.dat',quotechar='"',skipinitialspace=True)

   address 1  address 2            address 3  num1  num2  num3
0  address 1  address 2            address 3     1     2     3
1  address 1  address 2  address 3, address4     1     2     3

これは動作します:-)

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]