DASK Delayedとのマージが、DASK組み込みコマンドとのマージよりも非常に時間がかかるのはなぜですか？

debugcn 投稿 Dev

Neuronix

「key」という列で、形状がdf1.shape =（80000、18）の大きなパンダデータフレームを、形状がdf2.shape =（1、18）の小さなパンダデータフレームにマージしたいと思います。dd.mergeを使用した時間パフォーマンスは次のとおりです。

ddf1 = from_pandas(df1, npartitions=20)
ddf2 = from_pandas(df2, npartitions=1)
start = time.time()
pred_mldf = dd.merge(ddf1 , ddf2, on =['key'])
print(pred_mldf)
t0 = time.time()
print("deltat = ", t0 - start)

そして、結果はdeltat = 0.04です。

次に、この方法で遅延したdaskを使用してこれを実装し始めました。

def mymerge(df1, df2, key):
    pred_mldf = pd.merge(df1, df2, on = key)
    return pred_mldf

start = time.time()
pred_mldf = dask.delayed(mymerge)(df1, df2, ['key'])
pred_mldf.compute()
t0 = time.time()
print("deltat = ", t0 - start)

そして、結果はdeltat = 3.48です。

私の仮説は、2つのアプローチで同時にパフォーマンスを達成する必要があるというものです。私がここで間違っていることは何ですか？

スルタン

@Nick Beckerがコメントで指摘したように、現在、最初のコードブロックはマージを定義するだけで、実行しません（2番目のコードブロックは実行します）。したがって、追加.compute()すると別のマージ時間が与えられます。

ddf1 = from_pandas(df1, npartitions=20)
ddf2 = from_pandas(df2, npartitions=1)
start = time.time()
pred_mldf = dd.merge(ddf1 , ddf2, on =['key']).compute()
print(pred_mldf)
t0 = time.time()
print("deltat = ", t0 - start)

実行速度が異なるもう1つの理由は、2番目のコードブロックで完全df1を遅延関数に渡すことです。df1が大きい場合は、（最初のコードブロックのように）20のチャンクに分割し、それらを個別に遅延関数に渡す方が少し公平かもしれません。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-13

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

DASK Delayedとのマージが、DASK組み込みコマンドとのマージよりも非常に時間がかかるのはなぜですか？

DASK Delayedとのマージが、DASK組み込みコマンドとのマージよりも非常に時間がかかるのはなぜですか？

networkxを使用する場合、dask.delayedがシリアルコードよりも時間がかかるのはなぜですか？

__bool__組み込み関数がdask.delayedオブジェクトで例外を発生させる必要があるのはなぜですか？

daskを使用する場合、寄木細工よりもzarrの方がパフォーマンスがはるかに優れているのはなぜですか？

マルチプロセッシングのパフォーマンスが非常に速いのに、Daskのパフォーマンスが非常に遅いのはなぜですか？

CSVからインポートするときにHDF5と比較してパンダとdaskのパフォーマンスが向上するのはなぜですか？

Daskとフィールド名の複数のマージ

タスク間のデータフローが大きい場合、daskマルチプロセッシングスケジューラを利用する最も効率的な方法は何ですか？

Dask /分散型ワーカー内での計算がはるかに遅いのはなぜですか？

DaskがParquetファイルを読み取る速度が、Pandasが同じ寄木細工のファイルを読み取るよりもはるかに遅いのはなぜですか？

私の目標にふさわしいDask？`` `Compute（）` ``非常に時間がかかる

Dask操作の実行時間の見積もりを取得することは可能ですか？

提出したマシンとは異なるマシンでDaskコンピューティングの結果を取得するにはどうすればよいですか？

Daskで中間結果を再利用する（delayedとdask.dataframeの混合）

Python：DaskスライスをNumpy配列にコピーすると、行数が一致しないのはなぜですか

DaskはPythonでSQLServerからどのように読み取りますか

Dask分散のStreamz

daskのflatMap

パンダ操作を実行しているときに、なぜdask警告が表示されるのですか？

「小さい」サイズのタスクでMemoryErrorが原因でdaskワーカーが失敗するのはなぜですか？[Dask.bag]

Daskはスレッドスケジューラでマルチスレッドをどのように活用しますか？

Daskとfbprophet

map_blockとmap_overlapの処理時間の違いは、dask.arrayからnp.arrayへの変換によるものですか？

xarrayのapply_ufuncでdask = parallelizedとdask = allowedの違いは何ですか？

仮想マシンで実行しているときにDaskダッシュボードを表示するにはどうすればよいですか？

daskワーカーからredisへの書き込み

すでに実行中のdaskスケジューラがあるかどうかを確認するにはどうすればよいですか？

daskオブジェクトからのdaskグラフの表示

Daskデータフレームに形状属性がないのはなぜですか？

Pythonでのdaskによる遅延実行とtqdmの組み合わせ

bool組み込み関数がdask.delayedオブジェクトで例外を発生させる必要があるのはなぜですか？