R中泊松回归的不正确预测

德拉戈斯·乔治诺

我正在尝试根据收集的历史数据来预测网站的访问者数量。我认为这是我可以使用泊松回归的方案。

输入包括6列:

id(网站的id),日,月,年,星期几,访问次数。

因此,基本上,作为输入,我们有一个CSV格式的列,其格式为:“ 2”,“ 22”,“ 7”,“ 2015”,“ 6”,“ 751”。

我正在尝试根据之前的访问次数来预测访问次数。网站的大小可能会有所不同,因此我最终将它们分为5类

  • 几乎为零(平均<1)
  • 非常小(平均<100)
  • 小(平均<1000)
  • 中(平均<50.000)
  • 大(平均<500.000)

因此,我做了第7列,名为type,它的int范围是1到5。

我的代码如下:

train = read.csv("train.csv", header = TRUE)
model<-glm(visits ~ type + day + month + year + dayofweek, train, family=poisson)
summary(model)
P = predict(model, newdata = train)
imp = round(P)
imp

预测的值甚至不接近,我告诉我最终可以得到实际值的10-20%的值,但是没有做到,大多数预测值都比实际值大200-300%。这是在火车数据集上的,应该提供一个乐观的观点。

我是R的新手,在解释summary命令返回的数据时遇到一些问题。这是它返回的内容:

致电:glm(公式=访问次数〜类型+日期+月+年份+星期几,家庭=泊松,数据=火车)

偏差残差:最小值1Q中位数3Q最大值
-571.05 -44.04 -11.33 -5.14 734.43

系数:

            Estimate Std. Error  z value Pr(>|z|)     

(Intercept) -9.998e+02  6.810e-01 -1468.19   <2e-16 *** 

type         2.368e+00  1.280e-04 18498.53   <2e-16 *** 

day         -2.473e-04  6.273e-06   -39.42   <2e-16 *** 

month        1.658e-02  3.474e-05   477.31   <2e-16 *** 

year         4.963e-01  3.378e-04  1469.31   <2e-16 *** 

dayofweek   -3.783e-02  2.621e-05 -1443.46   <2e-16 ***

--- Signif。代码:0 ' ' 0.001 ' ' 0.01 ' ' 0.05 ''。0.1''1

(泊松族的色散参数取为1)

空偏差:12370自由度为1239161821残余偏差:12365自由度为157095033 AIC:157176273

Fisher计分迭代次数:5

谁能更详细地描述summary命令返回的值,以及在输出更好的预测的泊松回归中应该是什么样子?R中是否有更好的方法来处理基于估计值随时间的演变的数据?

LE。链接到train.csv文件

理查德·特尔福德

您的问题出在predict命令上。默认predict.glm为在链接规模上进行预测。如果您希望可以直接与原始数据进行比较的预测,则需要使用参数type = "response"

P <- predict(model, newdata = train, type = "response")

模型设置不理想。也许应该将月份作为类别变量(as.factor包含在内,并且您需要更多地考虑日期(月份的第31天,然后是下个月的第1天)。预测变量“类型”也是可疑的,因为类型是直接从响应中得出的。

您的模型也高度分散。这可能表明缺少预测变量或其他问题。

您还应该考虑使用混合效果模型。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

为什么glmnet中泊松套索回归模型的预测不是整数?

来自分类Dev

R中的泊松表

来自分类Dev

Java中的泊松分布(正确吗?)

来自分类Dev

使用泊松回归的bestglm R软件包错误

来自分类Dev

如何实现泊松回归?

来自分类Dev

泊松回归AIC表

来自分类Dev

如何实现泊松回归?

来自分类Dev

R中的排序不正确

来自分类Dev

线性回归-输出不正确

来自分类Dev

AngularJS:过滤器太松-显示不正确

来自分类Dev

如何在R中绘制泊松密度曲线?

来自分类Dev

R中循环的解释-泊松变量模拟;

来自分类Dev

改变泊松 GLM R 中的 Y 截距

来自分类Dev

如何在 Python 中实现这个 R 泊松分布?

来自分类Dev

R中的线性回归预测

来自分类Dev

在R中解析XML:不正确的名称空间

来自分类Dev

R中矩阵的下标数目不正确

来自分类Dev

ggplot直方图在r中显示不正确的结果

来自分类Dev

While循环在R中执行不正确?

来自分类Dev

R中的IFELSE返回不正确的值

来自分类Dev

在R中对数字进行不正确的排序

来自分类Dev

R中的glm函数使用不正确的系数?

来自分类Dev

向量化逻辑回归的成本函数输出不正确

来自分类Dev

修复泊松回归中的“TypeError”(使用 Python)

来自分类Dev

R.使用测量,样条和仅一个自变量值进行不正确的预测

来自分类Dev

使用R生成泊松分布

来自分类Dev

泊松电子测试在Python中的实现

来自分类Dev

在C ++中实现泊松分布

来自分类Dev

Python中的双变量泊松分布