データフレームをhdfscsvにランダムな順序で書き込む方法は？

debugcn 投稿 Dev

ヤナチェン

データフレームをhdfsに書き込みたい。ただし、データ行は1,700万行しかないにもかかわらず、ランダムな順序付けは非常に遅くなります。

df = df.withColumn('random_index',rand())
df = df.orderBy('random_index')

df.write.csv('hdfs:///user/yananc/yanan_gbdt_dnn', sep=',')

これを実現するための迅速で効率的な方法はありますか？

シャイド

を使用orderByすると、データフレームのすべてのパーティションにわたって行が並べ替えられます。行をシャッフルすることだけに関心があるので、sortWithinPartitions代わりに使用することを検討できます。この方法ではデータのシャッフルが必要ないため、より高速です。

df.sortWithinPartitions(rand())

もちろん、データフレームによっては、これによってデータが完全にランダムな順序になるわけではありません。これは、行がパーティション間でどのように分散されているかによって異なります。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-08-11

コメントを追加

サインイン

分類Dev

pandasデータフレームに書き込む前に、SqlAlchemyで列の順序を設定します

分類Dev

パンダのデータフレームにデータを書き込むための最適な方法

分類Dev

ランダムな Python データを CSV ファイルに書き込む

分類Dev

パンダは、データフレームを書き込む前にcsvに詳細を追加する方法

分類Dev

大きなパンダのデータフレームをSQLServerデータベースに書き込む

分類Dev

FTPでパンダのデータフレームをcsv / xlsに直接書き込む方法

分類Dev

羽のファイルにパンダのデータフレームを書き込む際にエラー

分類Dev

パンダがcsvにデータフレーム列を書き込む

分類Dev

高速パンダデータフレームをpostgresに書き込む

分類Dev

パンダデータフレームをS3に書き込む

分類Dev

パンダのデータフレームをMySQLに書き込む

分類Dev

SparkでTeradataにデータフレームを書き込む

分類Dev

ランダムな順序でビデオに書き込まれている画像を修正する方法

分類Dev

大きなPandasデータフレームをチャンクでCSVファイルに書き込む

分類Dev

HTMLデータを含むデータフレームをディスクに書き込む方法は？

分類Dev

パンダの1つのExcelファイルにデータフレームの辞書を書き込む方法は？キーはシート名、値はデータフレームです

分類Dev

xlsxwriterを使用してデータフレームなしでExcelファイルに書き込む方法

分類Dev

to_sqlを使用してパンダデータフレームをOracleデータベースに書き込む方法は？

分類Dev

差分条件でパンダデータフレームに値（日時）を書き込む

分類Dev

ストリーミングデータフレームをPostgreSQLに書き込む方法は？

分類Dev

パンダは、順序に関係なく2つのデータフレームの行を比較する方法

分類Dev

パンダ：最初にデータフレームをエクスポートせずにExcelシートに書き込む方法は？

分類Dev

プログラムでAzureBlobストレージにデータを書き込む方法は？

分類Dev

パンダのデータフレームに0を埋め込む方法は？

分類Dev

パンダ：引用符なしのリテラルタブでタブ区切りのデータフレームを書き込む

分類Dev

パンダ：データフレームでフィルタリングする条件を書き込む

分類Dev

PandasデータフレームをDjangoモデルに書き込む方法

分類Dev

パンダデータフレームの同じ行に辞書のリストを書き込む

分類Dev

書き込まれたデータフレームの順序が、読み取られた後に保持されないのはなぜですか？

Related 関連記事

記事