如何使用scikit线性回归模型同时求解几个独立的时间序列

马廷

我尝试使用sklearn线性回归模型同时预测多个独立的时间序列,但似乎无法正确处理。

我的数据组织如下:Xn是一个矩阵,其中每行包含4个观察yn的预测窗口,并且是的每一行的目标值Xn

import numpy as np

# training data
X1=np.array([[-0.31994,-0.32648,-0.33264,-0.33844],[-0.32648,-0.33264,-0.33844,-0.34393],[-0.33264,-0.33844,-0.34393,-0.34913],[-0.33844,-0.34393,-0.34913,-0.35406],[-0.34393,-0.34913,-.35406,-0.35873],[-0.34913,-0.35406,-0.35873,-0.36318],[-0.35406,-0.35873,-0.36318,-0.36741],[-0.35873,-0.36318,-0.36741,-0.37144],[-0.36318,-0.36741,-0.37144,-0.37529],[-0.36741,-.37144,-0.37529,-0.37896],[-0.37144,-0.37529,-0.37896,-0.38069],[-0.37529,-0.37896,-0.38069,-0.38214],[-0.37896,-0.38069,-0.38214,-0.38349],[-0.38069,-0.38214,-0.38349,-0.38475],[-.38214,-0.38349,-0.38475,-0.38593],[-0.38349,-0.38475,-0.38593,-0.38887]])
X2=np.array([[-0.39265,-0.3929,-0.39326,-0.39361],[-0.3929,-0.39326,-0.39361,-0.3931],[-0.39326,-0.39361,-0.3931,-0.39265],[-0.39361,-0.3931,-0.39265,-0.39226],[-0.3931,-0.39265,-0.39226,-0.39193],[-0.39265,-0.39226,-0.39193,-0.39165],[-0.39226,-0.39193,-0.39165,-0.39143],[-0.39193,-0.39165,-0.39143,-0.39127],[-0.39165,-0.39143,-0.39127,-0.39116],[-0.39143,-0.39127,-0.39116,-0.39051],[-0.39127,-0.39116,-0.39051,-0.3893],[-0.39116,-0.39051,-0.3893,-0.39163],[-0.39051,-0.3893,-0.39163,-0.39407],[-0.3893,-0.39163,-0.39407,-0.39662],[-0.39163,-0.39407,-0.39662,-0.39929],[-0.39407,-0.39662,-0.39929,-0.4021]])

# target values
y1=np.array([-0.34393,-0.34913,-0.35406,-0.35873,-0.36318,-0.36741,-0.37144,-0.37529,-0.37896,-0.38069,-0.38214,-0.38349,-0.38475,-0.38593,-0.38887,-0.39184])
y2=np.array([-0.3931,-0.39265,-0.39226,-0.39193,-0.39165,-0.39143,-0.39127,-0.39116,-0.39051,-0.3893,-0.39163,-0.39407,-0.39662,-0.39929,-0.4021,-0.40506])

单个时间序列的正常过程按预期工作,如下所示:

from sklearn.linear_model import LinearRegression

# train the 1st half, predict the 2nd half
half = len(y1)/2 # or y2 as they have the same length
LR = LinearRegression()
LR.fit(X1[:half], y1[:half])
pred = LR.predict(X1[half:])
r_2 = LR.score(X1[half:],y1[half:])

但是如何将线性回归模型同时应用于多个独立时间序列?我尝试了以下方法:

y_stack = np.vstack((y1[None],y2[None]))
X_stack = np.vstack((X1[None],X2[None]))

print 'y1 shape:',y1.shape, 'X1 shape:',X1.shape
print 'y_stack shape:',y_stack.shape, 'X_stack:',X_stack.shape
y1 shape: (16,) X1 shape: (16, 4)
y_stack shape: (2, 16) X_stack: (2, 16, 4)

但是,线性模型的拟合失败,如下所示:

LR.fit(X_stack[:,half:],y_stack[:,half:])

说明尺寸数比预期的高:

C:\Python27\lib\site-packages\sklearn\utils\validation.pyc in check_array(array, accept_sparse, dtype, order, copy, force_all_finite, ensure_2d, allow_nd, ensure_min_samples, ensure_min_features, warn_on_dtype, estimator)
        394         if not allow_nd and array.ndim >= 3:
        395             raise ValueError("Found array with dim %d. %s expected <= 2."
    --> 396                              % (array.ndim, estimator_name))
        397         if force_all_finite:
        398             _assert_all_finite(array)

    ValueError: Found array with dim 3. Estimator expected <= 2.

任何建议或提示,不胜感激。

更新

我可以使用for循环,但n实际上是大约10000个或更多,我希望找到包括数组操作的解决方案,因为这些是numpy,scipy和sklearn的显式功能

马廷

@ali_m我不认为这是一个重复的问题,但它们部分相关。当然,可以使用类似于sklearn的线性回归模型同时应用和预测时间序列:

我创建了一个新类LinearRegression_Multi

class LinearRegression_Multi:
    def stacked_lstsq(self, L, b, rcond=1e-10):
        """
        Solve L x = b, via SVD least squares cutting of small singular values
        L is an array of shape (..., M, N) and b of shape (..., M).
        Returns x of shape (..., N)
        """
        u, s, v = np.linalg.svd(L, full_matrices=False)
        s_max = s.max(axis=-1, keepdims=True)
        s_min = rcond*s_max
        inv_s = np.zeros_like(s)
        inv_s[s >= s_min] = 1/s[s>=s_min]
        x = np.einsum('...ji,...j->...i', v,
                      inv_s * np.einsum('...ji,...j->...i', u, b.conj()))
        return np.conj(x, x)    

    def center_data(self, X, y):
        """ Centers data to have mean zero along axis 0. 
        """
        # center X        
        X_mean = np.average(X,axis=1)
        X_std = np.ones(X.shape[0::2])
        X = X - X_mean[:,None,:] 
        # center y
        y_mean = np.average(y,axis=1)
        y = y - y_mean[:,None]
        return X, y, X_mean, y_mean, X_std

    def set_intercept(self, X_mean, y_mean, X_std):
        """ Calculate the intercept_
        """
        self.coef_ = self.coef_ / X_std # not really necessary
        self.intercept_ = y_mean - np.einsum('ij,ij->i',X_mean,self.coef_)

    def scores(self, y_pred, y_true ):
        """ 
        The coefficient R^2 is defined as (1 - u/v), where u is the regression
        sum of squares ((y_true - y_pred) ** 2).sum() and v is the residual
        sum of squares ((y_true - y_true.mean()) ** 2).sum().        
        """        
        u = ((y_true - y_pred) ** 2).sum(axis=-1)
        v = ((y_true - y_true.mean(axis=-1)[None].T) ** 2).sum(axis=-1)
        r_2 = 1 - u/v
        return r_2

    def fit(self,X, y):
        """ Fit linear model.        
        """        
        # get coefficients by applying linear regression on stack
        X_, y, X_mean, y_mean, X_std = self.center_data(X, y)
        self.coef_ = self.stacked_lstsq(X_, y)
        self.set_intercept(X_mean, y_mean, X_std)

    def predict(self, X):
        """Predict using the linear model
        """
        return np.einsum('ijx,ix->ij',X,self.coef_) + self.intercept_[None].T

使用与问题中相同的声明变量,可以如下应用:

LR_Multi = LinearRegression_Multi()
LR_Multi.fit(X_stack[:,:half], y_stack[:,:half])
y_stack_pred = LR_Multi.predict(X_stack[:,half:])
R2 = LR_Multi.scores(y_stack_pred, y_stack[:,half:])

其中多个时间序列的R ^ 2为:

array([ 0.91262442,  0.67247516])

这确实类似于标准sklearn线性回归的预测方法:

from sklearn.linear_model import LinearRegression

LR = LinearRegression()
LR.fit(X1[:half], y1[:half])
R2_1 = LR.score(X1[half:],y1[half:])

LR.fit(X2[:half], y2[:half])
R2_2 = LR.score(X2[half:],y2[half:])
print R2_1, R2_2
0.912624422097 0.67247516054

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何为时间序列数据创建线性回归模型?

来自分类Dev

使用线性回归的时间序列

来自分类Dev

使用Scikit Learn对时间序列熊猫数据框进行线性回归

来自分类Dev

如何使用线性回归模型进行预测?

来自分类Dev

时间序列熊猫的线性回归

来自分类Dev

熊猫时间序列的线性回归

来自分类Dev

如何使用scikit-learn执行多元线性回归?

来自分类Dev

如何使用scikit-learn执行多元线性回归?

来自分类Dev

使用R的线性回归模型

来自分类Dev

Spark(1.6)ML线性回归-如何使用模型进行预测

来自分类Dev

约束线性回归-scikit如何学习?

来自分类Dev

Keras序列模型非线性回归模型不良预测

来自分类Dev

为scikit线性回归模型生成numpy数组

来自分类Dev

SciKit学习-线性回归背后的数学模型?

来自分类Dev

为scikit线性回归模型生成numpy数组

来自分类Dev

scikit-learn线性回归模型执行中的问题

来自分类Dev

如何用R中的条件求解线性回归

来自分类Dev

使用线性回归求解两个变量方程

来自分类Dev

没有.sort或sorted的排序列表,线性时间求解

来自分类Dev

使用线性回归的年度分布时间序列数据来获得-N-年后的预测

来自分类Dev

R + ggplot2:使用带变化点的线性回归绘制时间序列

来自分类Dev

使用flexmix混合线性回归模型

来自分类Dev

使用Tensorflow的多元线性回归模型

来自分类Dev

使用CUDA实施大型线性回归模型

来自分类Dev

线性模型的R时间序列预测

来自分类Dev

如何使用scikit-learn在Python中打印简单线性回归的截距和斜率?

来自分类Dev

使用scikit-learn(sklearn),如何处理缺失数据(因变量y)进行线性回归?

来自分类Dev

R中多元时间序列的线性回归

来自分类Dev

具有线性回归误差的时间序列预测

Related 相关文章

  1. 1

    如何为时间序列数据创建线性回归模型?

  2. 2

    使用线性回归的时间序列

  3. 3

    使用Scikit Learn对时间序列熊猫数据框进行线性回归

  4. 4

    如何使用线性回归模型进行预测?

  5. 5

    时间序列熊猫的线性回归

  6. 6

    熊猫时间序列的线性回归

  7. 7

    如何使用scikit-learn执行多元线性回归?

  8. 8

    如何使用scikit-learn执行多元线性回归?

  9. 9

    使用R的线性回归模型

  10. 10

    Spark(1.6)ML线性回归-如何使用模型进行预测

  11. 11

    约束线性回归-scikit如何学习?

  12. 12

    Keras序列模型非线性回归模型不良预测

  13. 13

    为scikit线性回归模型生成numpy数组

  14. 14

    SciKit学习-线性回归背后的数学模型?

  15. 15

    为scikit线性回归模型生成numpy数组

  16. 16

    scikit-learn线性回归模型执行中的问题

  17. 17

    如何用R中的条件求解线性回归

  18. 18

    使用线性回归求解两个变量方程

  19. 19

    没有.sort或sorted的排序列表,线性时间求解

  20. 20

    使用线性回归的年度分布时间序列数据来获得-N-年后的预测

  21. 21

    R + ggplot2:使用带变化点的线性回归绘制时间序列

  22. 22

    使用flexmix混合线性回归模型

  23. 23

    使用Tensorflow的多元线性回归模型

  24. 24

    使用CUDA实施大型线性回归模型

  25. 25

    线性模型的R时间序列预测

  26. 26

    如何使用scikit-learn在Python中打印简单线性回归的截距和斜率?

  27. 27

    使用scikit-learn(sklearn),如何处理缺失数据(因变量y)进行线性回归?

  28. 28

    R中多元时间序列的线性回归

  29. 29

    具有线性回归误差的时间序列预测

热门标签

归档