コードを高速化-CSVを選択した列のパンダデータフレームにロードしてマージします

debugcn 投稿 Dev

ココココ

「1251」で終わるフォルダに3つのCSVファイルがあります。フォルダを繰り返し処理し、これらのファイルを選択して、パンダのデータフレームにチャンクでロードし、選択した列とマージしたいと思います。

90MBのファイルは簡単ですが、スクリプトは700 MBのファイル（300万行以上）を追加するのに15分かかります。操作全体が完了するまでに20分かかります-これは受け入れられません。

手順を変更して加速する方法はありますか？つまり、CSVをパンダのデータフレームにチャンクでロードし、それらを1つのファイルにマージ/追加/連結します。

これは小さなファイルではうまく機能しますが、大きなcsvファイルではより高速である必要があります。良いアイデアの質問をたくさん見つけましたが、これはうまくいくはずです-なぜそんなに遅いのかわかりません。それを速くする方法はありますか？

import os
import sys
import struct
import fileinput
import csv
import pandas as pd



cwd = 'C:\\Users\\'
print(cwd)
directory = (cwd + '\\FINAL\\')
directory2 = (cwd + '\\FINAL\\CSV')
print(directory)
x=pd.DataFrame()
for file in os.listdir(directory):
    if file.endswith( "1251.csv"):
        fajl = os.path.splitext(file)[0]
        print(fajl)
        for chunk in pd.read_csv(directory + '\\' + fajl + ".csv", sep=",",error_bad_lines=False, encoding='latin-1',low_memory=False, chunksize=100000):

            mylist = []
            mylist.append(chunk)
            big_data = pd.concat(mylist, axis= 0)


            big_data = big_data.fillna(value='')
            selected = big_data[['SYS', 'MANDT', 'AGR_NAME', 'OBJECT', 'AUTH', 'FIELD', 'LOW', 'HIGH', 'DELETED']]

            x=x.append(selected)

            x.to_csv(directory2 + '\\' + fajl + '.csv', sep=',', index=False)

ec2604

コードにいくつか問題があると思います。

なぜあなたはチャンクで読んでいますか？パンダはあなたのcsvの読み取りを処理できませんか？それとも、これはコードを高速化する試みでしたか？

何らかの理由で、2番目のforループ内でリストを再初期化しています。本質的に、このコードはデータフレームを追加する以外に何もしていません。

    for chunk in pd.read_csv(directory + '\\' + fajl + ".csv", sep=",",error_bad_lines=False, encoding='latin-1',low_memory=False, chunksize=100000):

        mylist = []
        mylist.append(chunk)
        big_data = pd.concat(mylist, axis= 0)


        big_data = big_data.fillna(value='')
        selected = big_data[['SYS', 'MANDT', 'AGR_NAME', 'OBJECT', 'AUTH', 'FIELD', 'LOW', 'HIGH', 'DELETED']]

        x=x.append(selected)

パンダがあなたのcsvを処理できると仮定すると（各csvの大きさはあなたの投稿からは明らかではありません）、私はこれを次のように行います（複数のDataFrameを含むリストにpd.concatを使用すると、追加よりもはるかに効率的です）：

import csv
import pandas as pd    
cwd = 'C:\\Users\\'
print(cwd)
directory = (cwd + '\\FINAL\\')
directory2 = (cwd + '\\FINAL\\CSV')
print(directory)
my_list = []
for file in os.listdir(directory):
    if file.endswith( "1251.csv"):
        fajl = os.path.splitext(file)[0]
        print(fajl)
        curr_df = pd.read_csv(directory + '\\' + fajl + ".csv", sep=",",error_bad_lines=False, encoding='latin-1', usecols=['SYS', 'MANDT', 'AGR_NAME', 'OBJECT', 'AUTH', 'FIELD', 'LOW', 'HIGH', 'DELETED'])
        curr_df = curr_df.fillna(value='')
        my_list.append(curr_df)
x = pd.concat(my_list)
x.to_csv(directory2 + '\\' + fajl + '.csv', sep=',', index=False)

あなたが本当にチャンクで読む必要があると仮定します：

import os
import sys
import struct
import fileinput
import csv
import pandas as pd



cwd = 'C:\\Users\\'
print(cwd)
directory = (cwd + '\\FINAL\\')
directory2 = (cwd + '\\FINAL\\CSV')
print(directory)
x = []
for file in os.listdir(directory):
    if file.endswith( "1251.csv"):
        fajl = os.path.splitext(file)[0]
        print(fajl)

        for chunk in pd.read_csv(directory + '\\' + fajl + ".csv", sep=",",error_bad_lines=False, encoding='latin-1',low_memory=False, chunksize=100000):

            x.append(chunk['SYS', 'MANDT', 'AGR_NAME', 'OBJECT', 'AUTH', 'FIELD', 'LOW', 'HIGH', 'DELETED'])
big_data = pd.concat(x, axis=0)
big_data = big_data.fillna(value='')
big_data.to_csv(directory2 + '\\' + fajl + '.csv', sep=',', index=False)

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-11

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

コードを高速化-CSVを選択した列のパンダデータフレームにロードしてマージします

コードを高速化-CSVを選択した列のパンダデータフレームにロードしてマージします

VBAコードを高速化する

VBAコードを高速化する

Pythonでコードを高速化

TapplyRコードを高速化

TapplyRコードを高速化

配列を使用してコードを高速化するExcelVBA

Numba を使用して次のコードを高速化する

ダフのデバイスはJavaコードを高速化しますか？

コードを高速化してみてください。

パンダのデータフレーム（日付）を選択してマージします

パンダ-選択した列を元のデータフレームに割り当てます

このループコードを高速化する方法は？

iOS / MacOSのメタルコードを高速化する方法

FFMPEG | ビデオをエンコードして高速化する方法

FFMPEG | ビデオをエンコードして高速化する方法

パンダのデータフレーム検索を高速化する方法を探しています

列に基づいてパンダデータフレームのデータを選択します

forループ内のコードを高速化

Pythonでコードのブロックを高速化

コードを高速化する簡単な方法を探しています

Rcppを使用してRコードを高速化できますか？

このPythonコードを高速化する方法は？

libclangを使用してC ++コードの解析を高速化する方法は？

R：forループと高速化コードを取り除く

パンダの列の値に基づいてデータフレームの列を選択します

SQLコマンドを高速化

numpyコードを高速化する方法

コードを高速化する方法は？

このマクロ/コードを高速化できますか？（Excel VBA複製ファインダー）