这个想法的主要缺陷是它没有给模型的学习添加任何东西,而且它降低了它的容量,因为你强迫你的模型在前 47 个步骤 (50-3) 学习身份映射。请注意,提供 0 作为输入相当于不为 RNN 提供输入,作为零输入,乘以权重矩阵后仍然为零,因此唯一的信息来源是偏差和前一个时间步的输出 - 两者都已经存在原始配方。现在第二个插件,我们有前 47 个步骤的输出——学习身份映射没有任何好处,但网络必须为此“付出代价”——它需要使用权重来编码这个映射不被处罚。
简而言之 - 是的,您的想法会奏效,但与原始方法相比,以这种方式获得更好的结果几乎是不可能的(因为您没有提供任何新信息,没有真正改变学习动态,但您限制了容量要求每一步都学习恒等映射;特别是这是一件非常容易学习的事情,所以梯度下降将首先发现这种关系,甚至在尝试“建模未来”之前)。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句