pysparkのRDDの他のフィールドに基づくフィールドの数

マーティン

pysparkを使用すると、次のようなRDDがあります。

[("a", 0), ("b", 1), ("a", 1), ("a", 0)]

私がやりたいのは、3番目のフィールドに基づいた最初のフィールドのカウントを使用して別のRDDを構築することです。効果的には次のようになります。

[("a", 0, 2), ("a", 1, 1), ("b", 1, 1)]

つまり、3番目のフィールドが0の「a」のインスタンスが2つあり、3番目のフィールドが1の「a」のインスタンスが1つあり、3番目のフィールドが1の「b」のインスタンスが1つあります。

reduceByKey使用すると、最初のフィールドのさまざまなカウントを簡単に取得できます。

rdd = sc.parallelize([( "a"、0、2)、( "a"、1、1)、( "b"、1、1)])

.map(lambda row:(row [0]、1))

.reduceByKey(add)

しかし、これでは、3番目のフィールドに関係なく、「a」と「b」のカウントしか得られません。代わりにこれを取得するにはどうすればよいですか?

eliasah

あなたの質問をよく理解しているなら、あなたはおそらくこのようなものを探しています:

from operator import add

rdd = sc.parallelize([("a", 0), ("b", 1), ("a", 1), ("a", 0)])
        .map(lambda row: ((row[0],row[1]), 1))
        .reduceByKey(add)
        .map(lambda row : (row[0][0],row[0][1],row[1]))
print(rdd.collect())

# [('a', 1, 1), ('a', 0, 2), ('b', 1, 1)]

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

他のフィールド値に基づくフィールドの違い?

分類Dev

複数のフィールドに基づく Elasticsearch ソート

分類Dev

他の列の値に基づくフォワードフィル

分類Dev

Symfony2の他のフィールド値に基づくフィールドの条件付き検証

分類Dev

他のフィールドに基づく1つのフィールドのmongodbカウント値

分類Dev

モデル-他のフィールドの値に基づくフィールド

分類Dev

別のフィールドの条件に基づくSQL更新フィールド

分類Dev

複数のフィールドに基づくレコードの検索

分類Dev

他のモデルに基づくDjango更新モデルフィールド

分類Dev

複数のワイルドカードに基づくSparklyrSparkSQLフィルター

分類Dev

Sparkの別のRDDに基づくフィルター

分類Dev

他のフィールド値に基づく角度2の検証?

分類Dev

他の値に基づくテキストフィールドの可視性

分類Dev

Gson:別のフィールドに基づく動的フィールド解析

分類Dev

特定のフィールド値に基づくSQLの選択

分類Dev

顧客に基づくMySQLの個別のフィールド数

分類Dev

複数の配列フィールドに基づくMongoDBの一致

分類Dev

複数値フィールドの要素に基づくElasticsearchの並べ替え

分類Dev

MS-SQLの複数のフィールドに基づくSELECT

分類Dev

ReactJSのデータに基づく検索フィールド

分類Dev

awkのフィールド値に基づくフィルター

分類Dev

別のRDDの最初のフィールドからの値に基づいて既存のRDDの2番目のフィールドの値を取得する

分類Dev

別のフィールドに基づく検証

分類Dev

フィールド値に基づく代替行の色

分類Dev

フィールド値に基づく代替行の色

分類Dev

マングースの他の2つのフィールドに基づく3番目のフィールドの計算

分類Dev

メールのTOフィールドに基づくOutlookルールのフィルタリング

分類Dev

別のフィールドの変数に基づいて、フィールドの値の平均を取得する

分類Dev

他のモデルのフィールドに基づくMany2oneフィールドの動的ドメイン

Related 関連記事

  1. 1

    他のフィールド値に基づくフィールドの違い?

  2. 2

    複数のフィールドに基づく Elasticsearch ソート

  3. 3

    他の列の値に基づくフォワードフィル

  4. 4

    Symfony2の他のフィールド値に基づくフィールドの条件付き検証

  5. 5

    他のフィールドに基づく1つのフィールドのmongodbカウント値

  6. 6

    モデル-他のフィールドの値に基づくフィールド

  7. 7

    別のフィールドの条件に基づくSQL更新フィールド

  8. 8

    複数のフィールドに基づくレコードの検索

  9. 9

    他のモデルに基づくDjango更新モデルフィールド

  10. 10

    複数のワイルドカードに基づくSparklyrSparkSQLフィルター

  11. 11

    Sparkの別のRDDに基づくフィルター

  12. 12

    他のフィールド値に基づく角度2の検証?

  13. 13

    他の値に基づくテキストフィールドの可視性

  14. 14

    Gson:別のフィールドに基づく動的フィールド解析

  15. 15

    特定のフィールド値に基づくSQLの選択

  16. 16

    顧客に基づくMySQLの個別のフィールド数

  17. 17

    複数の配列フィールドに基づくMongoDBの一致

  18. 18

    複数値フィールドの要素に基づくElasticsearchの並べ替え

  19. 19

    MS-SQLの複数のフィールドに基づくSELECT

  20. 20

    ReactJSのデータに基づく検索フィールド

  21. 21

    awkのフィールド値に基づくフィルター

  22. 22

    別のRDDの最初のフィールドからの値に基づいて既存のRDDの2番目のフィールドの値を取得する

  23. 23

    別のフィールドに基づく検証

  24. 24

    フィールド値に基づく代替行の色

  25. 25

    フィールド値に基づく代替行の色

  26. 26

    マングースの他の2つのフィールドに基づく3番目のフィールドの計算

  27. 27

    メールのTOフィールドに基づくOutlookルールのフィルタリング

  28. 28

    別のフィールドの変数に基づいて、フィールドの値の平均を取得する

  29. 29

    他のモデルのフィールドに基づくMany2oneフィールドの動的ドメイン

ホットタグ

アーカイブ