因此,我开始学习RNN,尤其是LSTM,并且其中的一部分理论我只是不了解。
当您堆叠LSTM单元格时,我看到每个人如何将隐藏状态从历史中分离出来,但这对我来说是没有意义的,LSTM是否不应该使用历史中的隐藏状态来做出更好的预测?
我阅读了文档,但对我来说仍然不清楚,因此欢迎任何解释
没错,LSTM中的隐藏状态可以用作内存。但是这个问题出现了,我们应该学习它们吗?不,隐藏状态不是应该学习的,因此我们将其分离以使模型使用这些值但不 计算梯度。
如果不分离,则渐变会很大。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句