我是机器学习的新手,所以我需要一些帮助。
我有火花流作业,它将有关用户用电量的数据吸收到Cassandra中。我用该数据填充了多个表,其中最重要的是“ hourly_data”,它指定每个用户在特定小时内消耗了多少电量。
我想要做的是对到一天,一个月或一年结束之前用户将花费的电量进行一些预测。
我应该为此使用哪些库和模型?回归实际上是我真正需要的吗?
我想我无法在流作业中进行预测,但是我需要为此启动批处理吗?
另外,如果我可以在特定的一天绘制出预期的用户行为,直到一天结束(与月或一年相同),那将是一件好事。Spark中的哪些库可以帮助我做到这一点?有教程吗?
非常感谢
为了预测一天,一个月和一年,您需要相应地描述时间序列。例如,如果您要预测当天的使用情况。您需要按天汇总每小时数据。输入数据:
date | hour | consumption|
--------------------------------
2016-05-07 | 01 | 0.3 |
2016-05-07 | 02 | 0.3 |
2016-05-07 | 03 | 0.3 |
2016-05-08 | : | 0.3 |
2016-05-08 | : | 0.3 |
2016-05-09 | 20 | 0.4 |
2016-05-09 | 21 | 0.1 |
2016-05-09 | 22 | 0.2 |
2016-05-09 | 23 | 0.3 |
2016-05-09 | 24 | 0.3 |
您的个人资料系列应为
date | consumption|
--------------------------------
2016-05-07 | 1 |
2016-05-08 | 1.3 |
2016-05-09 | 2.3 |
另外,如果您缺少数据,则必须考虑到这一点。剖析数据后,您可以尝试使用ARIMA,Holt-Winters等不同模型,还可以尝试一些状态空间模型。至于库spark-timeseries具有ARIMA实现。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句