検索

検索

pysparkのRDDの他のフィールドに基づくフィールドの数

debugcn 投稿 Dev

1

マーティン

pysparkを使用すると、次のようなRDDがあります。

[("a", 0), ("b", 1), ("a", 1), ("a", 0)]

私がやりたいのは、3番目のフィールドに基づいた最初のフィールドのカウントを使用して別のRDDを構築することです。効果的には次のようになります。

[("a", 0, 2), ("a", 1, 1), ("b", 1, 1)]

つまり、3番目のフィールドが0の「a」のインスタンスが2つあり、3番目のフィールドが1の「a」のインスタンスが1つあり、3番目のフィールドが1の「b」のインスタンスが1つあります。

reduceByKeyを使用すると、最初のフィールドのさまざまなカウントを簡単に取得できます。

rdd = sc.parallelize（[（ "a"、0、2）、（ "a"、1、1）、（ "b"、1、1）]）

.map（lambda row：（row [0]、1））

.reduceByKey（add）

しかし、これでは、3番目のフィールドに関係なく、「a」と「b」のカウントしか得られません。代わりにこれを取得するにはどうすればよいですか？

eliasah

あなたの質問をよく理解しているなら、あなたはおそらくこのようなものを探しています：

from operator import add

rdd = sc.parallelize([("a", 0), ("b", 1), ("a", 1), ("a", 0)])
        .map(lambda row: ((row[0],row[1]), 1))
        .reduceByKey(add)
        .map(lambda row : (row[0][0],row[0][1],row[1]))
print(rdd.collect())

# [('a', 1, 1), ('a', 0, 2), ('b', 1, 1)]

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-07-8

0

コメントを追加

0

サインイン

関連記事

分類Dev

他のフィールド値に基づくフィールドの違い？

分類Dev

複数のフィールドに基づく Elasticsearch ソート

分類Dev

他の列の値に基づくフォワードフィル

分類Dev

Symfony2の他のフィールド値に基づくフィールドの条件付き検証

分類Dev

他のフィールドに基づく1つのフィールドのmongodbカウント値

分類Dev

モデル-他のフィールドの値に基づくフィールド

分類Dev

別のフィールドの条件に基づくSQL更新フィールド

分類Dev

複数のフィールドに基づくレコードの検索

分類Dev

他のモデルに基づくDjango更新モデルフィールド

分類Dev

複数のワイルドカードに基づくSparklyrSparkSQLフィルター

分類Dev

Sparkの別のRDDに基づくフィルター

分類Dev

他のフィールド値に基づく角度2の検証？

分類Dev

他の値に基づくテキストフィールドの可視性

分類Dev

Gson：別のフィールドに基づく動的フィールド解析

分類Dev

特定のフィールド値に基づくSQLの選択

分類Dev

顧客に基づくMySQLの個別のフィールド数

分類Dev

複数の配列フィールドに基づくMongoDBの一致

分類Dev

複数値フィールドの要素に基づくElasticsearchの並べ替え

分類Dev

MS-SQLの複数のフィールドに基づくSELECT

分類Dev

ReactJSのデータに基づく検索フィールド

分類Dev

awkのフィールド値に基づくフィルター

分類Dev

別のRDDの最初のフィールドからの値に基づいて既存のRDDの2番目のフィールドの値を取得する

分類Dev

別のフィールドに基づく検証

分類Dev

フィールド値に基づく代替行の色

分類Dev

フィールド値に基づく代替行の色

分類Dev

マングースの他の2つのフィールドに基づく3番目のフィールドの計算

分類Dev

メールのTOフィールドに基づくOutlookルールのフィルタリング

分類Dev

別のフィールドの変数に基づいて、フィールドの値の平均を取得する

分類Dev

他のモデルのフィールドに基づくMany2oneフィールドの動的ドメイン

Related 関連記事

記事

ホットタグ

アーカイブ