pysparkのリスト内のさまざまなデータフレーム列を合計する正しい方法は何ですか？

debugcn 投稿 Dev

GeorgeOfTheRF

Sparkデータフレームのさまざまな列を合計したいと思います。

コード

from pyspark.sql import functions as F
cols = ["A.p1","B.p1"]
df = spark.createDataFrame([[1,2],[4,89],[12,60]],schema=cols)

# 1. Works
df = df.withColumn('sum1', sum([df[col] for col in ["`A.p1`","`B.p1`"]]))

#2. Doesnt work
df = df.withColumn('sum1', F.sum([df[col] for col in ["`A.p1`","`B.p1`"]]))

#3. Doesnt work
df = df.withColumn('sum1', sum(df.select(["`A.p1`","`B.p1`"])))

なぜ＃2にアプローチしないのですか。＆＃3。動作していませんか？私はSpark2.2を使用しています

Suresh

なぜなら、

# 1. Works
df = df.withColumn('sum1', sum([df[col] for col in ["`A.p1`","`B.p1`"]]))

ここでは、入力として反復可能であるpython組み込みsum関数を使用しているため、機能します。https://docs.python.org/2/library/functions.html#sum

#2. Doesnt work
df = df.withColumn('sum1', F.sum([df[col] for col in ["`A.p1`","`B.p1`"]]))

ここでは、入力として列を受け取るpyspark sum関数を使用していますが、行レベルで取得しようとしています。http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.functions.sum

#3. Doesnt work
df = df.withColumn('sum1', sum(df.select(["`A.p1`","`B.p1`"])))

ここで、df.select（）はデータフレームを返し、データフレームを合計しようとします。この場合、行ごとに繰り返し、合計を適用する必要があると思います。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-05-30

コメントを追加

サインイン

分類Dev

Pythonのディレクトリ内のさまざまなフォルダのテキストファイルを使用して単一列のデータフレームを作成するにはどうすればよいですか？

分類Dev

空のデータフレームの列としてさまざまな長さのリストを追加することは可能ですか？

分類Dev

パンダのデータフレーム内のさまざまなソースでグループ化して合計を計算するにはどうすればよいですか？

分類Dev

単一のクエリでさまざまなタイプの列のストリーミングデータフレームの統計を計算するにはどうすればよいですか？

分類Dev

Rのデータフレームで、因子のさまざまなレベルを互いに分割するのに最適な方法は何ですか？

分類Dev

R：データフレームのリスト内のさまざまな列を相関させます

分類Dev

より大きなリスト内のデータフレームのリストを合計する方法はありますか？

分類Dev

さまざまなリストのデータを保存する最良の方法は何ですか?

分類Dev

Python：Pandasでは、条件に基づいてデータフレーム内の複数の列からデータを抽出し、列で一致するさまざまなデータフレームに追加します

分類Dev

pysparkデータフレームのリスト値の合計を使用して列を作成する方法

分類Dev

データフレームのさまざまな列にさまざまな形式を適用するにはどうすればよいですか？

分類Dev

パンダがデータフレーム内のさまざまな行のリストを削除する

分類Dev

Flink CEP：さまざまなタイプのイベントのデータストリームを結合する方法はどれですか？

分類Dev

データフレーム内の個々の列のさまざまなブール基準に基づいて新しい列を作成する方法

分類Dev

さまざまなデータフレームからのデータを含め、さまざまなジオメトリを組み合わせ、データソースを識別する凡例を使用します

分類Dev

データフレームのリストの列を合計します

分類Dev

Pythonのリストから（フィルターを使用して）さまざまなデータフレームを作成する方法

分類Dev

dplyrで、特定の列がデータフレーム内にあるかどうかに応じて、さまざまな列を選択してフィルタリングする方法は？

分類Dev

Pysparkデータフレーム：配列またはリスト内の要素をカウントします

分類Dev

値がさまざまな数の辞書のリストである辞書からパンダデータフレームを生成します

分類Dev

Rデータフレームのさまざまな文字列の列で文字列の正確なセットを見つける方法は？

分類Dev

Rデータフレームのさまざまな文字列の列で文字列の正確なセットを見つける方法は？

分類Dev

Rのデータフレーム内のさまざまな列から最大値を取得する

分類Dev

Python：データフレームで使用可能なさまざまな列のコードを実行するにはどうすればよいですか？

分類Dev

複数のデータフレームをデータフレームのリストに保存し、そのうちの1つを思い出した場合、出力の列ヘッダーをフォーマットする方法はありますか？

分類Dev

リスト内のすべてのデータフレームの列の合計を含む新しい行を作成します

分類Dev

さまざまな長さの文字列のベクトルをデータフレームに配置する方法

分類Dev

Pandasデータフレーム-条件付き合計を作成する方法。条件はデータフレーム内の別の列に依存します

分類Dev

パンダネストされたデータフレーム列の合計で列を作成します

Related 関連記事

記事