对数似然成本函数：均值或总和？

debugcn 发表于 Dev

马里奥波罗

在这段用于计算负对数可能性的代码中，他们说：

注意：我们使用平均值代替总和，因此学习率对批次大小的依赖性较小

这就是他们获得负面对数可能性的方式：

return -T.mean(T.log(self.p_y_given_x)[T.arange(y.shape[0]), y])

在许多教科书中都是如此（例如Bishop的模式识别和机器学习），通过使用每个样本误差的总和而不是均值来计算负对数似然率。我仍然不理解作者的注释。每次计算成本函数时，我们应该使用均值而不是总和吗？即使我们不使用批处理？

胡安·列尼（Juan Leni）

平均值与和之间的差只是乘以1 / N。

使用总和的问题是批次大小（N）将影响您的梯度。学习率表示您要在梯度方向上调整参数的程度。

如果对于较大的批次大小（N），您的梯度较大，则意味着您需要在增加批次大小（N）时调整学习率。

实际上，为了使这两个（学习率和批量大小）保持独立，通常使用均值而不是总和。这使得梯度幅度与N无关。

如果不使用批处理，则N = 1，并且平均值与总和相同。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-17

我来说两句

0条评论

登录后参与评论

来自分类Dev

lmer（来自R包lme4）如何计算对数似然率？

来自分类Dev

如何在R中编码多参数对数似然函数

来自分类Dev

主题模型：对数似然或困惑的交叉验证

来自分类Dev

statsmodels与pymc中的对数似然

来自分类Dev

如何获得指数和伽马分布的对数似然

来自分类Dev

马尔可夫网络的对数似然

来自分类Dev

Statsmodels OLS回归：对数似然，用法和解释

来自分类Dev

具有“似然”方法的R调查包函数Svyciprop

来自分类Dev

R：对数似然优化产生的NaN

来自分类Dev

显示对数似然性的Baum-Welch算法：NaN BIC标准：NaN AIC标准：NaN

来自分类Dev

对数似然在Delphi中的实现

来自分类Dev

对数似然成本函数：均值或总和？

来自分类Dev

最大化包含pbivnorm的似然函数

来自分类Dev

Mathematica中的对数似然和多项式分布

来自分类Dev

scipy.stats.rv_continuous.fit生成的对数似然函数

来自分类Dev

在R中绘制对数似然函数

来自分类Dev

R从plm对象提取对数似然

来自分类Dev

如何在sklearn GMM中获得每次迭代的对数似然性？

来自分类Dev

评估Rstan中看不见的数据的对数似然性

来自分类Dev

用ggplot2绘制对数似然函数的问题

来自分类Dev

如何在R中编写多参数对数似然函数

来自分类Dev

主题模型：对数似然或困惑的交叉验证

来自分类Dev

计算对数似然（MATLAB）时避免使用-inf

来自分类Dev

GDA的对数似然函数（高斯判别分析）

来自分类Dev

优化负对数似然总和中的alpha和beta，以实现beta二项式分布

来自分类Dev

对数似然性：R中的NA Flexmix软件包

来自分类Dev

anova（）函数返回的对数似然的值是多少

来自分类Dev

从概率后缀树获取对数似然

来自分类Dev

为 WAIC（逻辑层次斯坦模型）编写对数似然

Related 相关文章

文章