我想找到year_hh_inc
按分组时的最低(最高和平均值)非零数的平均值,众数,第一,第三百分位数和标准偏差regional_schlüssel
。这是我的数据:
library(Rcurl)
x <- getURL('https://raw.githubusercontent.com/dothemathonthatone/maps/master/maindf_2_Anon.csv')
maindf <- read.csv(text = x, row.names=NULL, head =TRUE, dec = ',')
我应用以下代码:
maindf %>%
group_by(regional_schlüssel) %>%
summarise(year_hh_inc = mean(min(year_hh_inc)))
这并不能完全满足我的要求。它捕获了所有的最小(最大和标准偏差)值,regional_schlüssel
但没有告诉我有关它们的分布的任何信息。
交换消息后,似乎以下是您获取所需值的一种方法。首先,我使用定义了组regional_schlüssel
。然后,我寻找每个组中的最小值。values
包含要处理的数值。在第二篇中,summarize()
我使用了几个函数来获取您想要的值。
library(dplyr)
library(tibble)
group_by(maindf, regional_schlüssel) %>%
summarize(values = min(year_hh_inc)) %>%
summarize(average = mean(values),
sd = sd(values),
mode = names(which.max(table(values))),
quantile25 = quantile(values)[2],
quantile75 = quantile(values)[4])
average sd mode quantile25 quantile75
<dbl> <dbl> <chr> <dbl> <dbl>
1 15035. 4292. 12271 12271 17500
另一种方法是以下方法。我认为使用sumamry()
会使我们的生活更轻松。
group_by(maindf, regional_schlüssel) %>%
summarize(values = min(year_hh_inc)) -> res
c(summary(res$values), sd = sd(res$values),
mode = names(which.max(table(res$values)))) %>%
enframe
name value
<chr> <chr>
1 Min. -8
2 1st Qu. 12271
3 Median 14999.5
4 Mean 15035.3142857143
5 3rd Qu. 17500
6 Max. 29999
7 sd 4291.76642645115
8 mode 12271
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句