パーティションの数は同じで列の数が異なる2つのデータフレーム（dask）を連結します

debugcn 投稿 Dev

エグバル

同じ数のパーティションを持つ2つのデータフレームがあります。これらのデータフレームを連結したい（最初のパーティションと最初のパーティション、2番目のパーティションと2番目のパーティションなど）。したがって、最終的なデータフレームには、最初のパーティション数（V）があり、すべてのパーティションで同じ行数になります。（n）ただし、列数は異なります（データフレーム1とデータフレーム2の列数の合計(n+m)）。最初のデータフレーム（A）にはインデックスとしてタイムスタンプがありますが、2番目のデータフレーム（B）にはこの列がありません。両方のデータフレームが並べ替えられており、すべてのパーティションを変更せずに、これらのデータセットをまとめるだけで済みます。また、のインデックスAは新しいデータフレームのインデックスになります。

A: data-frame (V partitions) - every partition (nXn)
B: data-frame (V partitions) - every partition (nXm)

C (new data-frame): (V partitions) - every partition (nX(n+m))

mdurant

これはそれほど難しいことではありません。

C = dd.from_delayed([dask.delayed(pd.concat)([a, b])
    for a, b in zip(A.to_delayed(), B.to_delayed())],
    meta=A._meta)

説明

各データフレームのパーティションを遅延オブジェクトとして取得します
これらのペアをに渡す concat
連結されたペアをデータフレームに戻します
出力には入力と同じ列とインデックスがあるため、メタを再利用します

（もちろん、Cはまだ怠惰です。操作は、何かをしたときにのみトリガーされます）

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-9

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

パーティションの数は同じで列の数が異なる2つのデータフレーム（dask）を連結します

パーティションの数は同じで列の数が異なる2つのデータフレーム（dask）を連結します

列数が異なる2つのパンダデータフレームを結合します

異なる次元のパンダでデータフレームを乗算する：列の数は同じですが、行の数は異なります

パンダのマージ：同じ列の2つのデータフレームをマージしますが、異なる列を保持します

Dask-2つの同じ列のデータフレームを連結しても機能しません

Dask-2つの同じ列のデータフレームを連結しても機能しません

同じデータフレームパンダで複数の列を1つの列に結合する

列名は同じでサフィックスが異なるデータフレームを連結します

同じ値のペアを持つが、2つのデータフレームで異なる順序で表示される2つの列に基づいてパンダのデータフレームをマージします

サイズの異なる2つのデータフレームを連結します（パンダ）

パンダの列数が異なる2つのフレームを連結するにはどうすればよいですか？

パンダ：複数の.csvファイルを連結し、同じ名前の列が集約されたデータフレームを返します

観測値の数が異なる場合は、2つのデータフレームを列で結合します

2つのデータフレーム、パンダからの2つの同じ列を結合します

同じリクエスト内の2つのSQLは同じパラメータを使用しますが、返される列数は異なります。SQLインジェクションを行うことは可能ですか？

Rで重複しないデータを維持しながら、複数の同様の列で2つのデータフレームを結合する

パンダは列が異なる2つのデータフレームをマージします

Pythonで次元が異なる2つのデータフレームを連結します

同じキーファイル/パスフレーズで2つの異なるパーティションを暗号化しても安全ですか？

パンダで異なる列名を持つ2つ以上のデータフレームを連結する方法

パンダは2つのデータフレームを連結しますが、1つの列は連結し、もう1つは保持しますか？

パンダ：列の値に基づいて2つのデータフレームをマージします。同じ列値を含む複数の行の場合、それらを異なる列に追加します

Mysqlは、複数のテーブルで異なる条件で同じデータの2つの異なるカウントを作成します

パンダは同じデータフレーム内の複数の列でgroupbyをマップします

行と列の数が異なる2つのデータフレームをマージします

パンダのデータフレームで連続する同じ文字列値の数を見つける方法は？

パンダのデータフレーム列でグループ化し、同じExcelファイルの複数のシートに異なるグループを保存するにはどうすればよいですか？

2つの日付フレームを同じ列に結合しますが、日付は異なります

Spark：2つの同じパーティションのデータフレームを結合するときのシャッフル/交換を防止します

主キーは同じでデータが異なる2つのテーブルに結合します