同じ数のパーティションを持つ2つのデータフレームがあります。これらのデータフレームを連結したい(最初のパーティションと最初のパーティション、2番目のパーティションと2番目のパーティションなど)。したがって、最終的なデータフレームには、最初のパーティション数(V
)があり、すべてのパーティションで同じ行数になります。 (n
)ただし、列数は異なります(データフレーム1とデータフレーム2の列数の合計(n+m)
)。最初のデータフレーム(A
)にはインデックスとしてタイムスタンプがありますが、2番目のデータフレーム(B)にはこの列がありません。両方のデータフレームが並べ替えられており、すべてのパーティションを変更せずに、これらのデータセットをまとめるだけで済みます。また、のインデックスA
は新しいデータフレームのインデックスになります。
A: data-frame (V partitions) - every partition (nXn)
B: data-frame (V partitions) - every partition (nXm)
C (new data-frame): (V partitions) - every partition (nX(n+m))
これはそれほど難しいことではありません。
C = dd.from_delayed([dask.delayed(pd.concat)([a, b])
for a, b in zip(A.to_delayed(), B.to_delayed())],
meta=A._meta)
説明
concat
(もちろん、Cはまだ怠惰です。操作は、何かをしたときにのみトリガーされます)
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加