パンダのデータフレーム検索を高速化する方法を探しています

debugcn 投稿 Dev

チャド

そのため、データフレームでリリース日（リリース日は製品を見つけることができる最も早い日付）を検索し、データフレームの現在の日付からそれを引くことによって、特定の製品の年齢を計算しようとしています。ただし、リリース日の検索には非常に時間がかかります（このスレッドを作成するまでに2時間かかります）。注：データフレームには30万を超える行があります。

私はパンダで.locメソッドを使用していますが、これが問題の原因のようです。

#Age Calculation
def item_age(release,current):
    age = (current - release) / timedelta(days=365.2425)
    age="%.3f" % age
    return age

#Get the release date of a given item 
def getItem_releaseDate(sales_data,index):
    date=sales.loc[(sales.item_id==index),'date']
    release=[]
    for i in date:
        release.append(datetime.datetime.strptime(i,'%d.%m.%Y'))
    mini=min(release)
    return mini

#Appending age to item
def getItem_age(sales_data):
    sales=sales_data
    sales['age']=0
    for index,row in sales.iterrows():
        current=datetime.datetime.strptime(row['date'],'%d.%m.%Y')
        release=getItem_releaseDate(sales_data,row["item_id"])
        row["age"]=item_age(release,current)
    return sales

グスト

次のことを試してください（テストするデータがないため、機能しているかどうかはわかりません）

#Appending age to item
def getItem_age(sales_data):
    sales_data['age']=item_age(sales_data.date.values, getItem_releaseDate(sales_data,sales_data.item_id.values))
    return sales_data

#Age Calculation
def item_age(release,current):
    age = (current - release) / timedelta(days=365.2425)
    age="%.3f" % age
    return age

#Get the release date of a given item 
def getItem_releaseDate(sales_data,index):
    return sales_data.loc[sales_data.item_id == index].date.min()

コードの問題は、データセットを非効率的にループしていることです。通常、これは「Vectorization with NumPy」を使用して取り除くことができます。詳細については、パンダの最適化を確認してください。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-10

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

パンダのデータフレーム検索を高速化する方法を探しています

パンダのデータフレーム検索を高速化する方法を探しています

パンダのデータフレームでの検索を高速化

パンダのデータフレームを反復処理するためのより高速な方法を探しています

別のデータフレームを参照するパンダのローリングを高速化する

コードを高速化-CSVを選択した列のパンダデータフレームにロードしてマージします

データフレーム検索を高速化し、値を割り当てる方法は？

「ユニークな」データフレーム検索を高速化する方法

コードを高速化する方法-データフレームの検索には数時間かかります

.txtファイルを使用して形成されたPythonデータフレームでの検索/フィルタリングを高速化するにはどうすればよいですか？

大きなパンダのデータフレームで最も近い上限値と下限値の検索を高速化

パンダのデータフレーム列のリスト内を検索しています、エラー

パンダのデータフレーム列のリスト内を検索しています、エラー

パンダのデータフレームを行ごとに検索して変数を抽出する方法

コードを高速化する簡単な方法を探しています

Python 3を使用して、現在の方法を使用してデータフレームの更新を高速化するにはどうすればよいですか？

条件に基づいてパンダデータフレームの列の数を検索します

パンダを使用してデータフレームをサブセット化するより高速な方法

パンダ-データフレームインデックスを使用して値を検索する方法

巨大なパンダデータフレームで行をスライスする最速の方法を探しています

ループを高速化して、複数のデータフレームから値を割り当てます

パンダのデータフレームは、異なるデータフレームの値を検索し、値を割り当てます

パンダのデータフレームを高速で検索し、条件に基づいてデータフレームの別の列に値を挿入します

パターン検索をどのように高速化できますか？

パンダを使用してデータフレームの列の上位3つを検索します

検索に近いジオコーダーを高速化するためのインデックスを追加

geopyを使用して、パンダデータフレームの座標から国名を検索します

パンダの時間インデックス付きデータフレームの将来の値をローリングするためにループします。これを高速化できますか？

「移動する」球内の複数の配列間でデータを検索するコードのランタイムを高速化する方法

多くのデータフレームから対応する値を検索して返すパンダ

パンダのデータフレームで2番目に新しい日付を検索します