我有一个处理要求似乎不适合很好的 SPARK 并行化用例。另一方面,我可能看不到如何在 SPARK 中轻松完成。
我正在寻找并行化以下情况的最简单方法:
这听起来可能很奇怪,但这无非是获取一组交易记录,然后决定给定的计算周期 Pn,在此期间是否存在明显的牛市或熊市价差。一旦找到初始周期,然后按日期在 Pn 之前和 Pn 之后,就可以尝试寻找在初始 Pn 周期之前或之后的牛市或熊市价差周期。等等。一切正常。
我设计的算法适用于使用 SQL 和一些循环插入记录。生成的记录最初并不存在,而是即时创建的。我查看了数据帧和 RDD,但(对我而言)如何做到这一点并不那么明显。
使用 SQL 并不是一个如此困难的算法,但您需要按顺序处理给定逻辑键集的记录。因此不是典型的 SPARK 用例。
我的问题是:
一些示例以表格格式记录 A - 根据该算法的工作原理:
Jan Feb Mar Apr May Jun Jul Aug Sep
key X -5 1 0 10 9 -20 0 5 7
将导致记录 B 的生成如下:
key X Jan - Feb --> Bear
key X Apr - Jun --> Bull
这属于非典型 Spark 的范畴。通过在 Spark Scala 中的循环内循环解决,但使用 JDBC。也可以是 Scala JDBC 程序。也有 foreachPartition 的变化。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句