Spark和Spark Streaming中的时间序列预测

斯达扬·尼基托维奇

我是机器学习的新手,所以我需要一些帮助。

我有火花流作业,它将有关用户用电量的数据吸收到Cassandra中。我用该数据填充了多个表,其中最重要的是“ hourly_data”,它指定每个用户在特定小时内消耗了多少电量。

我想要做的是对到一天,一个月或一年结束之前用户将花费的电量进行一些预测。

我应该为此使用哪些库和模型?回归实际上是我真正需要的吗?

我想我无法在流作业中进行预测,但是我需要为此启动批处理吗?

另外,如果我可以在特定的一天绘制出预期的用户行为,直到一天结束(与月或一年相同),那将是一件好事。Spark中的哪些库可以帮助我做到这一点?有教程吗?

非常感谢

没有

为了预测一天,一个月和一年,您需要相应地描述时间序列。例如,如果您要预测当天的使用情况。您需要按天汇总每小时数据。输入数据:

date       | hour | consumption|
--------------------------------
2016-05-07 | 01   | 0.3        |
2016-05-07 | 02   | 0.3        |
2016-05-07 | 03   | 0.3        |
2016-05-08 | :    | 0.3        |
2016-05-08 | :    | 0.3        |
2016-05-09 | 20   | 0.4        |
2016-05-09 | 21   | 0.1        |
2016-05-09 | 22   | 0.2        |
2016-05-09 | 23   | 0.3        |
2016-05-09 | 24   | 0.3        |

您的个人资料系列应为

date       | consumption|
--------------------------------
2016-05-07 | 1          |
2016-05-08 | 1.3        |
2016-05-09 | 2.3        |

另外,如果您缺少数据,则必须考虑到这一点。剖析数据后,您可以尝试使用ARIMA,Holt-Winters等不同模型,还可以尝试一些状态空间模型。至于库spark-timeseries具有ARIMA实现。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

预测和时间序列

来自分类Dev

跟踪和预测时间序列中的运动

来自分类Dev

Spark Streaming 中批处理时间和提交时间相差 50 分钟

来自分类Dev

SPARK中的平方和

来自分类Dev

在Spark Streaming中从Kafka反序列化Avro格式的数据会给出空字符串和0长时间

来自分类Dev

Spark Streaming groupByKey和updateStateByKey实现

来自分类Dev

Spark Streaming + Spark SQL

来自分类Dev

Spark Streaming + Spark SQL

来自分类Dev

重塑/旋转Spark RDD和/或Spark DataFrames中的数据

来自分类Dev

在Spark和Spark Broadcast变量中处理Hive查找表

来自分类Dev

Spark 1.6 和 Spark 2.2 中的不同行为

来自分类Dev

Spark和不可序列化的DateTimeFormatter

来自分类Dev

spark组和序列化列表

来自分类Dev

Kafka和TextSocket Stream中的Spark Streaming数据分发

来自分类Dev

如何使用Spark Streaming从序列文件中读取数据

来自分类Dev

MongoDB和Spark中的连接过多

来自分类Dev

如何从Spark中的RDD和DataFrame过滤?

来自分类Dev

Spark和Scala中的文本操作

来自分类Dev

从Spark中的textFile读取和转换数据

来自分类Dev

(Py)Spark中的缓存和循环

来自分类Dev

Spark和Scala中的文本操作

来自分类Dev

Java中的Spark sql选择和减少

来自分类Dev

Spark AR 脚本中的距离和宽度

来自分类Dev

如何通过Spark MLlib并行训练和预测?

来自分类Dev

Spark Streaming中的顺序处理

来自分类Dev

Spark Streaming中的并发操作

来自分类Dev

在Spark Streaming中缓存DStream

来自分类Dev

集成Spark SQL和Spark流时出现不可序列化异常

来自分类Dev

集成Spark SQL和Spark流时出现不可序列化的异常