dplyrを使用してデータをトリミングし、年間平均ごとに要約するにはどうすればよいですか?

ジャクソンウォーカー

私はdplyr、要約、フィルタリング、およびグループ化について学び、取り組んでいます。

都市名、州名、年、総人口、総人口、性別の合計、および都市と年ごとの平均の人口調査データを含むデータセット「set2c」があります。

https://share.getcloudapp.com/o0uQnyGn

続けて、各都市の人口の合計で集計することにより、州の人口を見つけようとしています。各州の平均人口をまとめた新しい列「stateAvePop」が欲しいのですが。

set2d <- set2c %>%
  group_by(YEAR,STNAME,totalAll,totalMale,totalFemale) %>%
  summarize(stateavepop = sum(avgpop))
set2d

https://share.getcloudapp.com/Z4uw0epe

しかし、平均値を取得しようとしているときは、どういうわけか州で並べ替える必要があると思います。誰かが私が間違っているところを見てくれませんか?

head(set2c、20)は以下を返します:

# A tibble: 20 x 7
# Groups:   CTYNAME, YEAR, STNAME, totalAll, totalMale [20]
   CTYNAME           YEAR STNAME         totalAll totalMale totalFemale avgpop
   <fct>            <int> <fct>             <int>     <int>       <int>  <dbl>
 1 Abbeville County    10 South Carolina    24560     11895       12665  24560
 2 Abbeville County    11 South Carolina    24541     11868       12673  24541
 3 Acadia Parish       10 Louisiana         62514     30405       32109  62514
 4 Acadia Parish       11 Louisiana         62190     30342       31848  62190
 5 Accomack County     10 Virginia          32566     15871       16695  32566
 6 Accomack County     11 Virginia          32412     15817       16595  32412
 7 Ada County          10 Idaho            456885    228715      228170 456885
 8 Ada County          11 Idaho            469966    235266      234700 469966
 9 Adair County        10 Iowa               7053      3503        3550   7053
10 Adair County        10 Kentucky          19294      9578        9716  19294
11 Adair County        10 Missouri          25306     12183       13123  25306
12 Adair County        10 Oklahoma          21981     10981       11000  21981
13 Adair County        11 Iowa               7063      3509        3554   7063
14 Adair County        11 Kentucky          19215      9508        9707  19215
15 Adair County        11 Missouri          25339     12194       13145  25339
16 Adair County        11 Oklahoma          22082     11015       11067  22082
17 Adams County        10 Colorado         504428    254651      249777 504428
18 Adams County        10 Idaho              4132      2129        2003   4132
19 Adams County        10 Illinois          66094     32521       33573  66094
20 Adams County        10 Indiana           35422     17683       17739  35422
akrun

OPの更新されたデータの例に基づいて、「STNAME」でグループ化するだけで済みます。

library(dplyr)
set2c %>%
     group_by(STNAME) %>% 
     summarise(totalAll = sum(totalAll), avppop = mean(avgpop))
# A tibble: 11 x 3
#   STNAME         totalAll  avppop
#   <chr>             <int>   <dbl>
# 1 Colorado         504428 504428 
# 2 Idaho            930983 310328.
# 3 Illinois          66094  66094 
# 4 Indiana           35422  35422 
# 5 Iowa              14116   7058 
# 6 Kentucky          38509  19254.
# 7 Louisiana        124704  62352 
# 8 Missouri          50645  25322.
# 9 Oklahoma          44063  22032.
#10 South Carolina    49101  24550.
#11 Virginia          64978  32489 

新しい列の作成中に特定の列を選択する場合は、transmute代わりにを使用してくださいsummarise

set2c %>%
      group_by(STNAME) %>% 
      transmute(totalAll, totalAllSum = sum(totalAll), avppop = mean(avgpop))
# A tibble: 20 x 4
# Groups:   STNAME [11]
#   STNAME         totalAll totalAllSum  avppop
#   <chr>             <int>       <int>   <dbl>
# 1 South Carolina    24560       49101  24550.
# 2 South Carolina    24541       49101  24550.
# 3 Louisiana         62514      124704  62352 
# 4 Louisiana         62190      124704  62352 
# 5 Virginia          32566       64978  32489 
# 6 Virginia          32412       64978  32489 
# 7 Idaho            456885      930983 310328.
# 8 Idaho            469966      930983 310328.
# 9 Iowa               7053       14116   7058 
#10 Kentucky          19294       38509  19254.
#11 Missouri          25306       50645  25322.
#12 Oklahoma          21981       44063  22032.
#13 Iowa               7063       14116   7058 
#14 Kentucky          19215       38509  19254.
#15 Missouri          25339       50645  25322.
#16 Oklahoma          22082       44063  22032.
#17 Colorado         504428      504428 504428 
#18 Idaho              4132      930983 310328.
#19 Illinois          66094       66094  66094 
#20 Indiana           35422       35422  35422 

データ

set2c <- structure(list(CTYNAME = c("Abbeville County", "Abbeville County", 
"Acadia Parish", "Acadia Parish", "Accomack County", "Accomack County", 
"Ada County", "Ada County", "Adair County", "Adair County", "Adair County", 
"Adair County", "Adair County", "Adair County", "Adair County", 
"Adair County", "Adams County", "Adams County", "Adams County", 
"Adams County"), YEAR = c(10L, 11L, 10L, 11L, 10L, 11L, 10L, 
11L, 10L, 10L, 10L, 10L, 11L, 11L, 11L, 11L, 10L, 10L, 10L, 10L
), STNAME = c("South Carolina", "South Carolina", "Louisiana", 
"Louisiana", "Virginia", "Virginia", "Idaho", "Idaho", "Iowa", 
"Kentucky", "Missouri", "Oklahoma", "Iowa", "Kentucky", "Missouri", 
"Oklahoma", "Colorado", "Idaho", "Illinois", "Indiana"), totalAll = c(24560L, 
24541L, 62514L, 62190L, 32566L, 32412L, 456885L, 469966L, 7053L, 
19294L, 25306L, 21981L, 7063L, 19215L, 25339L, 22082L, 504428L, 
4132L, 66094L, 35422L), totalMale = c(11895L, 11868L, 30405L, 
30342L, 15871L, 15817L, 228715L, 235266L, 3503L, 9578L, 12183L, 
10981L, 3509L, 9508L, 12194L, 11015L, 254651L, 2129L, 32521L, 
17683L), totalFemale = c(12665L, 12673L, 32109L, 31848L, 16695L, 
16595L, 228170L, 234700L, 3550L, 9716L, 13123L, 11000L, 3554L, 
9707L, 13145L, 11067L, 249777L, 2003L, 33573L, 17739L), avgpop = c(24560L, 
24541L, 62514L, 62190L, 32566L, 32412L, 456885L, 469966L, 7053L, 
19294L, 25306L, 21981L, 7063L, 19215L, 25339L, 22082L, 504428L, 
4132L, 66094L, 35422L)), class = "data.frame", row.names = c("1", 
"2", "3", "4", "5", "6", "7", "8", "9", "10", "11", "12", "13", 
"14", "15", "16", "17", "18", "19", "20"))

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

メールをドメインごとにグループ化し、ディレクトリ内のすべてのファイルから結合して要約するにはどうすればよいですか?

分類Dev

IDと組み合わせたリストとしてデータフレームを要約するにはどうすればよいですか?

分類Dev

Handbrakeを使用してビデオをトリミングするにはどうすればよいですか?

分類Dev

Prcompを使用してRのデータフレームとしてPCAの要約を抽出するにはどうすればよいですか?

分類Dev

GISディゾルブ操作と同様にパンダを使用してPythonでセグメント化された道路データを要約するにはどうすればよいですか?

分類Dev

VLCを使用してChromecastにストリーミングするにはどうすればよいですか?

分類Dev

Hapiを使用してブラウザにデータをストリーミングするにはどうすればよいですか?

分類Dev

TCPサーバーがデータを待機している間、プログラムに10ミリ秒ごとにセンサーを読み取らせるにはどうすればよいですか。

分類Dev

Spring 5 Web Reactive-WebClientを使用してFluxでストリーミングデータを取得するにはどうすればよいですか?

分類Dev

Spring 5 Web Reactive-WebClientを使用してFluxでストリーミングデータを取得するにはどうすればよいですか?

分類Dev

Spring 5 Web Reactive-WebClientを使用してFluxでストリーミングデータを取得するにはどうすればよいですか?

分類Dev

'pandas'の列ごとに欠落/ NaNデータの要約カウントを取得するにはどうすればよいですか?

分類Dev

dplyrを使用して、値のリストにないすべての値を再コーディングするにはどうすればよいですか?

分類Dev

Scrapy、CSSセレクターを使用してタグ間のミスサインデータを処理するにはどうすればよいですか?

分類Dev

DeflateStreamを使用してライブストリーミングデータを解凍するにはどうすればよいですか?

分類Dev

oraclesqlを使用してデータを要約/ピボットするにはどうすればよいですか

分類Dev

Excelで年齢範囲とカウントを要約するにはどうすればよいですか?

分類Dev

IDBIndex.count()を使用してキー範囲ごとにデータサイズをカウントするにはどうすればよいですか?

分類Dev

静的データセットに対してストリーミングクエリを実行するにはどうすればよいですか?

分類Dev

mysqlのdatetimeデータ型を使用して特定の年をインクリメントするにはどうすればよいですか?

分類Dev

AndroidでRTSPリンクを使用してビデオをライブストリーミングするにはどうすればよいですか?

分類Dev

Scalaを使用してSparkストリーミングのTwitterで人気のあるタグを実行するにはどうすればよいですか?

分類Dev

グラファイトを使用して、累積カウンターと最高、平均、最悪を比較するにはどうすればよいですか?

分類Dev

UIViewを半円としてトリミングするにはどうすればよいですか?

分類Dev

グループごとのクラスター割り当ての割合を要約するにはどうすればよいですか?

分類Dev

pd.get_dummies()を使用して、カテゴリのリストをダミーコーディングするにはどうすればよいですか?

分類Dev

WebRTCを使用してビデオをRTMPにストリーミングするにはどうすればよいですか?

分類Dev

UNOを介して開いているドキュメントごとに一時データを保存するにはどうすればよいですか?

分類Dev

リアルタイムグラフ化のためにmatplotlib.animationを使用して、動的に成長するリストからデータポイントを継続的にストリーミングするにはどうすればよいですか?

Related 関連記事

  1. 1

    メールをドメインごとにグループ化し、ディレクトリ内のすべてのファイルから結合して要約するにはどうすればよいですか?

  2. 2

    IDと組み合わせたリストとしてデータフレームを要約するにはどうすればよいですか?

  3. 3

    Handbrakeを使用してビデオをトリミングするにはどうすればよいですか?

  4. 4

    Prcompを使用してRのデータフレームとしてPCAの要約を抽出するにはどうすればよいですか?

  5. 5

    GISディゾルブ操作と同様にパンダを使用してPythonでセグメント化された道路データを要約するにはどうすればよいですか?

  6. 6

    VLCを使用してChromecastにストリーミングするにはどうすればよいですか?

  7. 7

    Hapiを使用してブラウザにデータをストリーミングするにはどうすればよいですか?

  8. 8

    TCPサーバーがデータを待機している間、プログラムに10ミリ秒ごとにセンサーを読み取らせるにはどうすればよいですか。

  9. 9

    Spring 5 Web Reactive-WebClientを使用してFluxでストリーミングデータを取得するにはどうすればよいですか?

  10. 10

    Spring 5 Web Reactive-WebClientを使用してFluxでストリーミングデータを取得するにはどうすればよいですか?

  11. 11

    Spring 5 Web Reactive-WebClientを使用してFluxでストリーミングデータを取得するにはどうすればよいですか?

  12. 12

    'pandas'の列ごとに欠落/ NaNデータの要約カウントを取得するにはどうすればよいですか?

  13. 13

    dplyrを使用して、値のリストにないすべての値を再コーディングするにはどうすればよいですか?

  14. 14

    Scrapy、CSSセレクターを使用してタグ間のミスサインデータを処理するにはどうすればよいですか?

  15. 15

    DeflateStreamを使用してライブストリーミングデータを解凍するにはどうすればよいですか?

  16. 16

    oraclesqlを使用してデータを要約/ピボットするにはどうすればよいですか

  17. 17

    Excelで年齢範囲とカウントを要約するにはどうすればよいですか?

  18. 18

    IDBIndex.count()を使用してキー範囲ごとにデータサイズをカウントするにはどうすればよいですか?

  19. 19

    静的データセットに対してストリーミングクエリを実行するにはどうすればよいですか?

  20. 20

    mysqlのdatetimeデータ型を使用して特定の年をインクリメントするにはどうすればよいですか?

  21. 21

    AndroidでRTSPリンクを使用してビデオをライブストリーミングするにはどうすればよいですか?

  22. 22

    Scalaを使用してSparkストリーミングのTwitterで人気のあるタグを実行するにはどうすればよいですか?

  23. 23

    グラファイトを使用して、累積カウンターと最高、平均、最悪を比較するにはどうすればよいですか?

  24. 24

    UIViewを半円としてトリミングするにはどうすればよいですか?

  25. 25

    グループごとのクラスター割り当ての割合を要約するにはどうすればよいですか?

  26. 26

    pd.get_dummies()を使用して、カテゴリのリストをダミーコーディングするにはどうすればよいですか?

  27. 27

    WebRTCを使用してビデオをRTMPにストリーミングするにはどうすればよいですか?

  28. 28

    UNOを介して開いているドキュメントごとに一時データを保存するにはどうすればよいですか?

  29. 29

    リアルタイムグラフ化のためにmatplotlib.animationを使用して、動的に成長するリストからデータポイントを継続的にストリーミングするにはどうすればよいですか?

ホットタグ

アーカイブ