在神经网络多层感知器中,我了解到随机梯度下降 (SGD) 与梯度下降 (GD) 之间的主要区别在于训练时选择了多少样本。也就是说,SGD 迭代地选择一个样本来执行前向传播,然后进行反向传播以调整权重,这与 GD 不同,后者仅在前向传播中计算了所有样本后才开始反向传播)。
我的问题是:
非常感谢你。
我想我可以回答你的第一个问题。是的,单个前向传递的误差计算为瞬时误差,例如,如果将一个样本馈送到网络,则网络输出与所需响应(标签)之间差异的范数或瞬时误差的平均值从喂入小批量样本中获得的错误。
我希望这有帮助。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句