データフレームをhdfscsvにランダムな順序で書き込む方法は?

ヤナチェン

データフレームをhdfsに書き込みたい。ただし、データ行は1,700万行しかないにもかかわらず、ランダムな順序付けは非常に遅くなります。

df = df.withColumn('random_index',rand())
df = df.orderBy('random_index')

df.write.csv('hdfs:///user/yananc/yanan_gbdt_dnn', sep=',')

これを実現するための迅速で効率的な方法はありますか?

シャイド

を使用orderByすると、データフレームのすべてのパーティションにわたって行が並べ替えられます。行をシャッフルすることだけに関心があるので、sortWithinPartitions代わりに使用することを検討できますこの方法ではデータのシャッフルが必要ないため、より高速です。

df.sortWithinPartitions(rand())

もちろん、データフレームによっては、これによってデータが完全にランダムな順序になるわけではありません。これは、行がパーティション間でどのように分散されているかによって異なります。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

pandasデータフレームに書き込む前に、SqlAlchemyで列の順序を設定します

分類Dev

パンダのデータフレームにデータを書き込むための最適な方法

分類Dev

ランダムな Python データを CSV ファイルに書き込む

分類Dev

パンダは、データフレームを書き込む前にcsvに詳細を追加する方法

分類Dev

大きなパンダのデータフレームをSQLServerデータベースに書き込む

分類Dev

FTPでパンダのデータフレームをcsv / xlsに直接書き込む方法

分類Dev

羽のファイルにパンダのデータフレームを書き込む際にエラー

分類Dev

パンダがcsvにデータフレーム列を書き込む

分類Dev

高速パンダデータフレームをpostgresに書き込む

分類Dev

パンダデータフレームをS3に書き込む

分類Dev

パンダのデータフレームをMySQLに書き込む

分類Dev

SparkでTeradataにデータフレームを書き込む

分類Dev

ランダムな順序でビデオに書き込まれている画像を修正する方法

分類Dev

大きなPandasデータフレームをチャンクでCSVファイルに書き込む

分類Dev

HTMLデータを含むデータフレームをディスクに書き込む方法は?

分類Dev

パンダの1つのExcelファイルにデータフレームの辞書を書き込む方法は?キーはシート名、値はデータフレームです

分類Dev

xlsxwriterを使用してデータフレームなしでExcelファイルに書き込む方法

分類Dev

to_sqlを使用してパンダデータフレームをOracleデータベースに書き込む方法は?

分類Dev

差分条件でパンダデータフレームに値(日時)を書き込む

分類Dev

ストリーミングデータフレームをPostgreSQLに書き込む方法は?

分類Dev

パンダは、順序に関係なく2つのデータフレームの行を比較する方法

分類Dev

パンダ:最初にデータフレームをエクスポートせずにExcelシートに書き込む方法は?

分類Dev

プログラムでAzureBlobストレージにデータを書き込む方法は?

分類Dev

パンダのデータフレームに0を埋め込む方法は?

分類Dev

パンダ:引用符なしのリテラルタブでタブ区切りのデータフレームを書き込む

分類Dev

パンダ:データフレームでフィルタリングする条件を書き込む

分類Dev

PandasデータフレームをDjangoモデルに書き込む方法

分類Dev

パンダデータフレームの同じ行に辞書のリストを書き込む

分類Dev

書き込まれたデータフレームの順序が、読み取られた後に保持されないのはなぜですか?

Related 関連記事

  1. 1

    pandasデータフレームに書き込む前に、SqlAlchemyで列の順序を設定します

  2. 2

    パンダのデータフレームにデータを書き込むための最適な方法

  3. 3

    ランダムな Python データを CSV ファイルに書き込む

  4. 4

    パンダは、データフレームを書き込む前にcsvに詳細を追加する方法

  5. 5

    大きなパンダのデータフレームをSQLServerデータベースに書き込む

  6. 6

    FTPでパンダのデータフレームをcsv / xlsに直接書き込む方法

  7. 7

    羽のファイルにパンダのデータフレームを書き込む際にエラー

  8. 8

    パンダがcsvにデータフレーム列を書き込む

  9. 9

    高速パンダデータフレームをpostgresに書き込む

  10. 10

    パンダデータフレームをS3に書き込む

  11. 11

    パンダのデータフレームをMySQLに書き込む

  12. 12

    SparkでTeradataにデータフレームを書き込む

  13. 13

    ランダムな順序でビデオに書き込まれている画像を修正する方法

  14. 14

    大きなPandasデータフレームをチャンクでCSVファイルに書き込む

  15. 15

    HTMLデータを含むデータフレームをディスクに書き込む方法は?

  16. 16

    パンダの1つのExcelファイルにデータフレームの辞書を書き込む方法は?キーはシート名、値はデータフレームです

  17. 17

    xlsxwriterを使用してデータフレームなしでExcelファイルに書き込む方法

  18. 18

    to_sqlを使用してパンダデータフレームをOracleデータベースに書き込む方法は?

  19. 19

    差分条件でパンダデータフレームに値(日時)を書き込む

  20. 20

    ストリーミングデータフレームをPostgreSQLに書き込む方法は?

  21. 21

    パンダは、順序に関係なく2つのデータフレームの行を比較する方法

  22. 22

    パンダ:最初にデータフレームをエクスポートせずにExcelシートに書き込む方法は?

  23. 23

    プログラムでAzureBlobストレージにデータを書き込む方法は?

  24. 24

    パンダのデータフレームに0を埋め込む方法は?

  25. 25

    パンダ:引用符なしのリテラルタブでタブ区切りのデータフレームを書き込む

  26. 26

    パンダ:データフレームでフィルタリングする条件を書き込む

  27. 27

    PandasデータフレームをDjangoモデルに書き込む方法

  28. 28

    パンダデータフレームの同じ行に辞書のリストを書き込む

  29. 29

    書き込まれたデータフレームの順序が、読み取られた後に保持されないのはなぜですか?

ホットタグ

アーカイブ