如何处理stan中的缺失数据？

user5779223 发表于 Dev

用户5779223

我是stan的新手，正在实现概率矩阵分解模型。

给定用户项目评分矩阵：

                       item
 user     1    3   NA   4     5    NA
          2    0    3   NA    1     5
          1    1    NA  NA    NA    0
          ....

我应该如何在data块中表示可观察的数据并在块中表示要预测的缺失数据parameter？

先感谢您！

编辑：

现在，我正在实现以下模型：

pmf_code = """
data {

int<lower=0> K; //number of factors
int<lower=0> N; //number of user
int<lower=0> M; //number of item
int<lower=0> D; //number of observation
int<lower=0> D_new; //number of pridictor 
int<lower=0, upper=N> ii[D]; //item 
int<lower=0, upper=M> jj[D]; //user
int<lower=0, upper=N> ii_new[D_new]; // item
int<lower=0, upper=N> jj_new[D_new]; // user
real<lower=0, upper=5> r[D]; //rating
real<lower=0, upper=5> r_new[D_new]; //pridict rating

}

parameters {
row_vector[K] i[M]; // item profile
row_vector[K] u[N]; // user profile
real<lower=0> alpha;
real<lower=0> alpha_i;
real<lower=0> alpha_u;

}
transformed parameters {
matrix[N,M] I; // indicator variable
I <- rep_matrix(0, N, M);
for (d in 1:D){
    I[ii[d]][jj[d]] <- 1;
}
}
model {
for (d in 1:D){
    r[d] ~ normal(u[jj[d]]' * i[ii[d]], 1/alpha);
}

for (n in 1: N){
    u[n] ~ normal(0,(1/alpha_u) * I);
}
for (m in 1:M){
    i[m] ~ normal(0,(1/alpha_i) * I);
}
}
generated_quantities{
for (d in 1:D_new){
    r_new[d] <- normal(u[jj_new[d]]' * i[ii_new[d]], 1/alpha);
}
}
"""

但是No matches for: real ~ normal(matrix, real)在这行代码中出现错误：

for (d in 1:D){
    r[d] ~ normal(u[jj[d]]' * i[ii[d]], 1/alpha);
}

但是，jj[d]应当为整数，表示的ID user。u [ int]应该是一个row_vector具有k因素，而i[ii[d]]。它们的乘积应该是单个实际值，为什么斯坦说这是一个matrix？

鲍勃·卡彭特

Stan手册中有一章介绍如何处理丢失或稀疏的数据。在这种情况下，它丢失了数据。您想要做的是将其以长格式放置（R的重塑包装称其为熔化形式）：

  int<lower=0> I;               // number of items
  int<lower=0> J;               // number of users
  int N;                        // number of observations
  int<lower=1, upper=I> ii[N];  // item 
  int<lower=1, upper=J> jj[N];  // user
  int<lower=0, upper=5> y[N];   // rating

然后，对于每个观察n，您都可以让用户jj[n]将评价分配y[n]给item ii[n]。

手册的回归部分中的IRT模型中有一个示例。但是，您的结果是有序的，这有点棘手。您可以进行某种直接的顺序物流，可能是分层的，也可以尝试进行诸如因子模型之类的事情（例如每个人都用于Netflix的部分SVD）。手册中还有因子模型的示例---您将使用它们来生成有序回归的线性预测变量。

然后，如果您要预测y[m]itemi和user的某种新组合j，则可以在生成的数量块中将其作为后验预测量。您可以通过抽样或期望来实现；潜在的离散参数章节和预测的回归章节中的更改点模型中都有一个示例。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-25

我来说两句

0条评论

登录后参与评论

上一篇：获取Highcharts工具提示以返回角度指令？

来自分类Dev

Related 相关文章

文章

如何处理stan中的缺失数据？

如何处理stan中的缺失数据？

如何处理JSON中的缺失数据

使用scikit学习OneHotEncoder时如何处理分类数据中的缺失值（NaN）？

jQuery如何处理ajax调用中的缺失字段

Python：如何处理CSV中的缺失值？

如何处理KeyRoutedEventArgs e中VirtualKey枚举的缺失值

在R中使用Hmisc处理缺失值后如何处理“ Impute”数据类型

spark如何处理缺失值？

Spark如何处理缺失值？

如何处理从状态中删除的数据

如何处理（汇总）R中的数据？

如何处理DataGridView框中的数据？

如何处理对象集合中的数据？

如何处理函数中的“数据”参数？

如何处理 MVVM 中的数据？

如何处理python中的json数据？

使用scikit-learn（sklearn），如何处理缺失数据（因变量y）进行线性回归？

如何处理 R 中逻辑类型列中的缺失值

如何处理 ASP.NET Web API 中不记名令牌的缺失或过期

在Swift中从JSON加载数据后如何处理数据？

如何处理可选类型的列表数据中的数据值

如何处理R中数据框中的重叠日期

将csv导入postgres时如何处理缺失？

if else语句中如何处理缺失值？

将csv导入postgres时如何处理缺失？

来自 lmerTest 的 rand()：如何处理缺失值？

如何处理CSV数据？

如何处理JSON数据？

如何处理CSV数据？

如何处理 fixedLengthformat 数据？