我有一个名为df_a的数据集,可运行数百万个。我要计算客户流失率并将其分组为几个月。
在样本数据上,我运行了代码以准备数据。
逻辑是根据记录查找最小月份(获取的月份)并
找到最后一个月份,以月为单位
查找差异,并以月为单位对差异进行分组
下面的代码
df_a<-data.table(df)
df_a[,"min_date" := min(yw), by=c("CUSTOMER_DIMENSION_ID")]
df_a[,"max_date" := max(yw), by=c("CUSTOMER_DIMENSION_ID")]
df_a$min_date_m<-anydate(df_a$min_date)
df_a$max_date_m<-anydate(df_a$max_date)
df_a$diff_days <- df_a$max_date_m - df_a$min_date_m
df_a$difference <- as.numeric(df_a$diff_days) /(365.25/12)
df_a$Month_Bucket<-ifelse((df_a$difference>=0 & df_a$difference<3),"3",
ifelse((df_a$difference>=3 & df_a$difference<6),"3-6",
ifelse((df_a$difference>=6 & df_a$difference<9),"6-9",
ifelse((df_a$difference>=9 & df_a$difference<12),"9-12",
ifelse((df_a$difference>=12 & df_a$difference<24),"12-24",
"24+")))))
data_a <- df_a[c(1,1:nrow(df_a)),]
setDT(data_a)
xxx<-(cohorts <-dcast(unique(data_a)[,cohort:=min(yw),by=CUSTOMER_DIMENSION_ID],cohort~Month_Bucket))
我得到以下格式的输出
Month 3
2020-08 92876
2020-07 144873
但是输出不正确
我想要的是
Month no of unique customers acquired 0-3 3-6 6-9
2019-08 85749
2019-07 128060
基本上,输出的结果是跨月汇总客户并分配存储桶。但是,如果我在2019-08年获得了85749个客户,我会说0-3年中有25k客户在3-6个月中又有25k客户
这里一个可以做:
data_unique <- unique(data_a)
ccc <- ( cohorts <- dcast( data_unique[ ,
cohort := min(yw),
by=CUSTOMER_DIMENSION_ID],
cohort ~ Month_Bucket,
value.var = "CUSTOMER_DIMENSION_ID",
function(x) { length(unique(x) } ) )
)
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句