巨大なパンダデータフレームで行をスライスする最速の方法を探しています

debugcn 投稿 Dev

Z.Wei

私のプログラムは、巨大なパンダデータフレームから列の値に基づいて行をフェッチする必要があります。応答時間は重要です。私はそれを行うために最も一般的な方法を使用します、例えば：

df.loc[df['id'] == 500000, :]

パーtimeit私のMac上のそれは100万行のデータフレーム上で上記の操作を完了するために4ミリ秒を要しました。しかし、私の目標は、時間を0.4ミリ秒に短縮することです。私はかつてこのデータフレームをセットに変換することを検討しましたが、セットは順序付けられておらず、インデックス作成やスライスをネイティブにサポートしていません。助言がありますか？

CJR

これを設定しましょう：

import pandas as pd
import numpy as np
df = pd.DataFrame({"id": np.random.randint(100,size=(1000000,))})

次に、いくつかのオプションのベンチマークを行いましょう。現在のブール値+ .loc：

>>> timeit.timeit("df.loc[df['id'] == 50, :]", setup = "from __main__ import df", number=1000)
2.566220869999597

クエリエンジン：

>>> timeit.timeit("df.query('id == 50')", setup = "from __main__ import df", number=1000)
14.591400260000228

インデックスを個別のルックアップとして使用する：

>>> idx = pd.Index(df['id'])
>>> timeit.timeit("df.loc[idx == 50, :]", setup = "from __main__ import df, idx", number=1000)
2.2155187300013495

ルックアップにデータフレームインデックスを使用する：

>>> df.index = df["id"]
>>> timeit.timeit("df.loc[50, :]", setup = "from __main__ import df", number=1000)
2.625610274999417

そして.isin()、コメントの誰かが持っていたその考え：

>>> timeit.timeit("df.loc[df['id'].isin([50]), :]", setup = "from __main__ import df", number=1000)
9.542700138999862

クエリエンジンが（予想どおり）単純な同等性のために遅いことを除いて、あなたが持っているルックアップ時間よりもはるかに良くなることはないように見えます。

df_unique = pd.DataFrame({'id': range(1000000)})

一意のIDがどのように役立つかを見てみましょう。

>>> timeit.timeit("df_unique.loc[df_unique['id'] == 50, :]", setup = "from __main__ import df_unique", number=1000)
1.9672015519990964

それから口述に：

>>> df_unique.index = df_unique['id']
>>> df_dict = df_unique.to_dict(orient='index')
>>> timeit.timeit("df_dict[50]", setup = "from __main__ import df_dict", number=1000)
6.247700002859347e-05

まあ、これは明らかに勝者のようです。

>>> timeit.timeit("pd.Series(df_dict[50])", setup = "from __main__ import df_dict, pd", number=1000)
0.2747819870000967

何かのためにシリーズにキャストバックする必要がある場合でも、これは以前よりも桁違いに高速です。（必要に応じて、シリーズをdictに非常に簡単にマップし直し、オーバーヘッドなしでdictルックアップの速度を維持することもできます）

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-11

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

巨大なパンダデータフレームで行をスライスする最速の方法を探しています

巨大なパンダデータフレームで行をスライスする最速の方法を探しています

パンダのデータフレーム検索を高速化する方法を探しています

パンダデータフレームで欠落している行の数をユーザーインデックスでカウントします

別のデータフレームから null ではない行を選択し、そのインデックスをランダムに取得する方法

メモリに収まらない可能性のある巨大なパンダデータフレームからインデックスを削除する

データベースなしでクラスを作成するためのデザインパターンを探しています

パンダのデータフレームを反復処理するためのより高速な方法を探しています

パンダ-2つのデータフレームを比較して、値が最初のデータフレームの倍数である1日あたりの最初のインスタンスを探します

区切り文字なしでパンダのデータフレームをスライスします

日時列に基づいてパンダのデータフレームをスライスします

パンダの列（ilocでスライス）をメインデータフレームとして並べ替える方法はありますか？

パンダのデータフレームスライスは異なる結果を生成します

特定のテストでグルーヴィーなパフォーマンスを改善する方法に関するアイデアを探しています

同じインデックスと列を持つ2つのパンダデータフレームから計算を実行する最速の方法

列名と行インデックスを使用してパンダデータフレームから値を選択する正しい方法は何ですか？

パンダのデータフレームをスライスして、連続していない列を取得します

さまざまなインターフェイス実装でクラスのさまざまなインスタンスを作成できるデザインパターンを探しています

Parallel Insertステートメントを使用してMySQLテーブルに巨大なパンダデータフレームを挿入する方法は？

パンダデータフレームの行のインデックスを整数として取得します

巨大なパンダデータフレームの複数の行にエントリを再配布します

他の列の望ましい部分にインデックスを付けて、パンダデータフレームに新しい列を作成する方法

インデックスのリストを指定してデータフレームに複数の行を挿入する最速の方法（Python）

Python：パンダのデータフレームを変換して、インデックスと列のIDが行の要素になるようにします

インデックスで2つのパンダデータフレームをマージするが、欠落している値を埋める方法

2つのパンダデータフレームから行をスライスして、他の値とマージする方法

1行のパンダデータフレームをスライスすると、スライスはシリーズになります

パンダ: 大きなデータフレームを検索する最速の方法は何ですか

巨大なファイルからパンダのデータフレームの作成をスピードアップする方法は？

行に応じて異なるインデックス列を持つパンダデータフレームの値を抽出します

2つの文字列を使用してパンダのデータフレームをスライスする