对数似然成本函数:均值或总和?

马里奥波罗

这段用于计算负对数可能性的代码中,他们说:

注意:我们使用平均值代替总和,因此学习率对批次大小的依赖性较小

这就是他们获得负面对数可能性的方式:

return -T.mean(T.log(self.p_y_given_x)[T.arange(y.shape[0]), y])

在许多教科书中都是如此(例如Bishop的模式识别和机器学习),通过使用每个样本误差总和而不是均值来计算负对数似然我仍然不理解作者的注释。每次计算成本函数时,我们应该使用均值而不是总和吗?即使我们不使用批处理?

胡安·列尼(Juan Leni)

平均值与和之间的差只是乘以1 / N。

使用总和的问题是批次大小(N)将影响您的梯度。学习率表示您要在梯度方向上调整参数的程度。

如果对于较大的批次大小(N),您的梯度较大,则意味着您需要在增加批次大小(N)时调整学习率。

实际上,为了使这两个(学习率和批量大小)保持独立,通常使用均值而不是总和。这使得梯度幅度与N无关。

如果不使用批处理,则N = 1,并且平均值与总和相同。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

lmer(来自R包lme4)如何计算对数似然率?

来自分类Dev

如何在R中编码多参数对数似然函数

来自分类Dev

主题模型:对数似然或困惑的交叉验证

来自分类Dev

statsmodels与pymc中的对数似然

来自分类Dev

如何获得指数和伽马分布的对数似然

来自分类Dev

马尔可夫网络的对数似然

来自分类Dev

Statsmodels OLS回归:对数似然,用法和解释

来自分类Dev

具有“似然”方法的R调查包函数Svyciprop

来自分类Dev

R:对数似然优化产生的NaN

来自分类Dev

显示对数似然性的Baum-Welch算法:NaN BIC标准:NaN AIC标准:NaN

来自分类Dev

对数似然在Delphi中的实现

来自分类Dev

对数似然成本函数:均值或总和?

来自分类Dev

最大化包含pbivnorm的似然函数

来自分类Dev

Mathematica中的对数似然和多项式分布

来自分类Dev

scipy.stats.rv_continuous.fit生成的对数似然函数

来自分类Dev

在R中绘制对数似然函数

来自分类Dev

R从plm对象提取对数似然

来自分类Dev

如何在sklearn GMM中获得每次迭代的对数似然性?

来自分类Dev

评估Rstan中看不见的数据的对数似然性

来自分类Dev

用ggplot2绘制对数似然函数的问题

来自分类Dev

如何在R中编写多参数对数似然函数

来自分类Dev

主题模型:对数似然或困惑的交叉验证

来自分类Dev

计算对数似然(MATLAB)时避免使用-inf

来自分类Dev

GDA的对数似然函数(高斯判别分析)

来自分类Dev

优化负对数似然总和中的alpha和beta,以实现beta二项式分布

来自分类Dev

对数似然性:R中的NA Flexmix软件包

来自分类Dev

anova()函数返回的对数似然的值是多少

来自分类Dev

从概率后缀树获取对数似然

来自分类Dev

为 WAIC(逻辑层次斯坦模型)编写对数似然

Related 相关文章

热门标签

归档