我有一个包含66K行和4列的数据框,即客户ID,客户签到时间,客户签到时间和客户签出时间。
First 6 rows of the data:
cust_ID cust_checkin_time cust_checkout_time checkin hour
12345 2019-01-01 07:02:50 2019-01-01 07:23:22 07AM_08AM
65789 2019-01-01 07:22:15 2019-01-01 07:26:02 07AM_08AM
90876 2019-01-01 07:25:21 2019-01-01 07:35:27 07AM_08AM
34567 2019-01-01 07:27:22 2019-01-01 07:38:56 07AM_08AM
36754 2019-01-01 07:44:41 2019-01-01 07:55:20 07AM_08AM
59876 2019-01-01 07:45:10 2019-01-01 07:58:42 07AM_08AM
我想知道每小时的到达率以使用泊松分布来预测等待时间。
我无法计算lambda,即每小时到达率。如何使用泊松分布或任何其他方法来计算该值。
请帮我解决这个问题。我已经花了将近一个星期的时间搜索Google,但是我没有得到满意的答复。
首先:这不是一个堆栈溢出问题。
check-in hour num_customer
7 am - 8 am 10
8 am - 9 am 7
10 am - 11 am 11
...
6 pm - 7 pm 6
lambda
通过汇总客户(10 + 7 + 11 + ... + 6)得出估算值,然后将其除以观察次数(入住时间,即12)。
使用dplyr
:
data %>%
count(checkin_hour) %>%
summarise(lamba=sum(n)/n())
提供所需的输出。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句