group_by（）とdplyrを使用して各集計バケットの列を作成する

debugcn 投稿 Dev

ジョシュア・クラーク

次のように、各行が記事の引用を表し、記事の発行日と各参照の違いを表すデータセットがあります。

    EID     ref    delta
1   2-s2    r1     0
2   2-s2    r2     3
3   2-s2    r3     22
4   2-s2    r4     100
5   2-s2    r5     7
6   3-s2    r6     1
7   3-s2    r7     0
8   3-s2    r8     1

個別のEIDごとに、年のデルタのさまざまな範囲に含まれる参照の数を特定したいと思います（つまり、特定の記事の場合、1歳、2歳、4歳などの参照の数）。それぞれにバケットを作成しようとしました。

buckets=c(0,1,2,4,8,16,32,64,9999)
bt=bt %>%
  mutate(delta = as.numeric(delta)) %>%
  mutate(bucket=cut(delta, breaks = buckets))

group = bt %>%
  group_by(EID, bucket) %>%
  summarise(count=n())

結果のグループ化されたデータは次のとおりです。

    EID     bucket  count
1   2-s2    (1,2]   6
2   2-s2    (2,4]   8
3   2-s2    (4,8]   16
4   2-s2    (8,16]  18
5   2-s2    (16,32] 10
6   3-s2    (1,2]   1
7   3-s2    (2,4]   13
8   3-s2    (4,8]   1
9   4-s1    (4,8]   3

持っているバケットごとに列を作成し、EIDでグループ化して、EIDごとに適切なバケットに適切なカウントを配置します。結果は次のようになります。

    EID     (1,2]  (2,4]  (4,8]  (8,16] (16,32]
1   2-s2    6      8      16     18     10
2   3-s2    1      13     1      0      0
2   4-s1    0      0      3      0      0

最初のテーブルを生成するために使用したコードを見ると、unstack(group, bucket~count)なんらかの方法で使用できるか、を使用してこれらのバケット列の作成を直接自動化できるはずsummarise()ですが、正確な方法がわかりません。理想的には、各列にハードコーディングする必要はありません。バケットリストを参照できるようにしたいので、バケットスキームを変更すると、それに応じて更新されます。ありがとうございました！

akrun

pivot_wider「ワイド」フォーマットに変形するために使用できます

library(dplyr)
library(tidyr)
group %>%
   pivot_wider(names_from =bucket, values_from = count)

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-12

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

group_by（）とdplyrを使用して各集計バケットの列を作成する

group_by（）とdplyrを使用して各集計バケットの列を作成する

dplyrとgroup_byを使用して独自の関数を作成する-変更された列名を続行する方法

dplyrを使用して列の値に応じてグループ（group_by）を作成する

dplyrを使用して列の値に応じてグループ（group_by）を作成する

`dplyr`パッケージを使用してgroup_by（）の後に各列の重複した重複を削除する方法

Rとdplyrを使用して要約する-group_by、count、mean、sd

dplyrとgroup_byを使用して、値の繰り返し回数を計算します

dplyrのgroup_by関数と一緒にベクトル化して列を反復処理する方法

dplyrパッケージでgroup_byとmutateを使用して、id変数で新しい因子変数を作成します

dplyrを使用して、別の列のgroup_byで除算して新しい列を作成する方法はありますか？

group_byを使用して相関とp値のデータフレームを作成し、Rのエラーバーでプロットします。

dplyrのgroup_by関数を使用して各グループのリスト要素を作成します

dplyrでgroup_byを使用するときに、関数に欠落している文字列値を処理する

func.sumとgroup_byを作成して行の合計を出力し、sqlalchemyを使用して重複する行をマージする方法

Rとdplyrを使用して応答の期間を計算しますか？group_byに関するいくつかの問題

ネストされたバケット集計を使用したelasticsearch「あまりにも多くのバケットを作成しようとしています」

ネストされたバケット集計を使用したelasticsearch「あまりにも多くのバケットを作成しようとしています」

列として1つの因子を持つGroup_by（dplyr）

2つの異なる列を連続して使用するsummaryとgroup_by

group_by（）を使用してdplyrを使用してデータフレームの要約統計量を計算する

dplyr :: group_by（）を使用してNAの最小日付を検索する

group_byを使用して値の差をカウントする

各集計値の横にカウントを追加します

dplyrパッケージを使用してグループごとの平均を計算する

dplyrのgroup_by（）を使用してベースライン/総計を追加します

dplyrを使用して長い形式でグループごとの集計カウントを作成する方法

Group_by を使用して各オブジェクトの合計数を取得する - Rails

R group_byを使用して、データフレームの平均と値の合計を計算します

PostgresQLを使用してそれらのバケット内にバケットとグループを作成する方法

rの他の2つの列のgroup_byを使用して行をカウントする