我一直在阅读UFLDL教程。在简单神经网络的矢量化实现中,这些教程建议一种方法是遍历整个训练集而不是迭代方法。在反向传播部分,这意味着替换:
gradW1 = zeros(size(W1));
gradW2 = zeros(size(W2));
for i=1:m,
delta3 = -(y(:,i) - h(:,i)) .* fprime(z3(:,i));
delta2 = W2'*delta3(:,i) .* fprime(z2(:,i));
gradW2 = gradW2 + delta3*a2(:,i)';
gradW1 = gradW1 + delta2*a1(:,i)';
end;
和
delta3 = -(y - h) .* fprime(z3)
delta2 = W2'*delta3().*fprime(z2)
gradW2 = delta3*a2'
gradW1 = delta2*a1'
//apply weight correction now that all gradients
//are computed
请访问此页面以获取有关符号和算法的信息。
但是,此实现在gradW1和gradW2内部产生异常大的值。这似乎是由于我在处理每个训练输入时未更新权重的结果(在另一个较早的工作实现中进行了测试)。我说得对吗?通过阅读教程,似乎有一种方法可以使这项工作奏效,但我无法提出可行的建议。
反向传播有两种实现方式:批处理和在线训练算法。最初,您描述了在线训练算法。然后,您发现并尝试实现了批次训练算法,该算法有时会产生您所描述的副作用。在您的情况下,将学习样本分成较小的块并从中学习是个好主意。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句