既存のdaskデータフレームの列として追加したいnumpy配列があります。
enc = LabelEncoder()
nparr = enc.fit_transform(X[['url']])
daskデータフレーム型のddfがあります。
ddf['nurl'] = nparr ???
上記を達成するためのエレガントな方法はありますか?
Python PANDAS:pandas / numpyからdaskdataframe / arrayへの変換numpy配列を既存のdaskデータフレームに入れたいので、これは私の問題を解決しません。
numpy配列をdaskSeriesオブジェクトに変換してから、データフレームにマージできます。.to_frame()
Daskはデータフレームと他のデータフレームのマージのみをサポートしているため、Seriesオブジェクトのメソッドを使用する必要があります。
import dask.dataframe as dd
import numpy as np
import pandas as pd
df = pd.DataFrame({'x': range(30), 'y': range(0,300, 10)})
arr = np.random.randint(0, 100, size=30)
# create dask frame and series
ddf = ddf = dd.from_pandas(df, npartitions=5)
darr = dd.from_array(arr)
# give it a name to use as a column head
darr.name = 'z'
ddf2 = ddf.merge(darr.to_frame())
ddf2
# returns:
Dask DataFrame Structure:
x y z
npartitions=5
0 int64 int64 int32
6 ... ... ...
... ... ... ...
24 ... ... ...
29 ... ... ...
Dask Name: join-indexed, 33 tasks
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加