Pandas: read_csv の区切り文字としての新しい行を無視する

debugcn 投稿 Dev

ユーザー411103

delimiter を持つ入力文字列があり$$$Field$$$ます。文字列にいくつかの線があります。$$$Field$$$だけで区切られた文字列内のすべてのアイテムのリストを返す必要があります。

以下の例では、出力として受け取る必要があります['Food', 'Fried\nChicken', 'Banana']。ただし、新しい行も区切り記号として解釈しているように見えるため、リストの代わりにテーブルを取得しています。これらの新しい行を無視して、リストを戻すにはどうすればよいですか?

import pandas as pd
from pandas.compat import StringIO

temp=u"""Food$$$Field$$$Fried
Chicken$$$Field$$$Banana"""
df = pd.read_csv(StringIO(temp), sep='\$\$\$Field\$\$\$',engine='python')
print (df)

私がパンダを使用している唯一の理由は、この文字列が実際には巨大な .csv ファイルであり、一度にメモリ内のすべてを読み取ることはできませんが、ストリーミング処理は許容されるためです。

ビクター

情報を表形式で保存するつもりはないので、DataFrame は必要ないと思います。代わりに、文字列をチャンクで読み取り、遭遇するたびにバッファーを生成し'$$$Field$$$'ます。

https://stackoverflow.com/a/16260159/4410590から適応:

def myreadlines(f, newline):
    buf = ""
    while True:
        while newline in buf:
            pos = buf.index(newline)
            yield buf[:pos]
            buf = buf[pos + len(newline):]
        chunk = f.read(4096)
        if not chunk:
            yield buf
            break
        buf += chunk

次に、関数を呼び出します。

> for x in myreadlines(StringIO(temp), '$$$Field$$$'):
      print repr(x)

u'Food'
u'Fried\nChicken'
u'Banana'

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-07-29

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

Pandas: read_csv の区切り文字としての新しい行を無視する

Pandas: read_csv の区切り文字としての新しい行を無視する

Python Pandas read_csvで複数の文字区切り文字を使用する

pandas read_csvを使用する場合は、区切り文字を一部のタブのみに制限してください

readr :: read_csvの末尾の区切り文字を無視する

pandas read_csv index_col = Noneが各行の終わりの区切り文字で機能しない

pandas read_csv index_col = Noneが各行の終わりの区切り文字で機能しない

Python Pandas read_csv（）：誤って読み込まれたcsv

numpy genfromtxt / pandas read_csv; 引用符内のコンマは無視してください

pandas read_csvでこのタブ区切りファイルを読み取ると、行が失われます

C# Pandas read_csv Equivalent

Pandas read_csv only first comma

pandas read_csv（）とpythonイテレータを入力として

Dictionary to CSV with Pandas to_csv and reload it with read_csv

pandas read_csvヘッダーを文字列型として解析しますが、整数が必要です

csvが変数として保存されている場合、どのようにpandas read_csv（）メソッドを使用しますか？

pandas.read_csvを使用してcsvファイルを読み取る行区切り文字としてセミコロンを削除します

pandas read_csvでヘッダーを読み取るときに、 `＃`文字をスキップします

Pandas read_csvは、名前が指定されている場合、不良行の例外を発生させません

モジュール 'pandas'には属性 'read_csvがありません

AttributeError：モジュール 'pandas'には属性 'read_csv'がありません

Pandas read_csv（）によって読み込まれたdtypeの辞書を取得します

.read_csvの読み取り中のif条件をPandasシリーズに統合する

Pandas Read_CSVでUseColsを使用するときに列を指定の順序に保つ

Pandas read_csv not recognizing ISO8601 as datetime dtype

Pandas read_csv reads rows wrongfully as dictionaries

Pandas, importing JSON-like file using read_csv

Manually set the keys in Pandas DataFrame built with read_csv

Pandas read_csvは、列数を変更する場合にヘッダー名を追加します

read_csv は、区切りとして \ を読み取ります

パンダ：read_csvは空白行の後の行を無視します