在Vowpal Wabbit中获得保持损失

Kurtosis 发表于 Dev

峰度

我正在尝试在Vowpal Wabbit中实现网格搜索或更复杂的超参数搜索。为此目的，是否有相对简单的方法来获取在验证集（vw中的保持）上获得的损失函数值？大众汽车必须已经针对每个通过次数进行了计算，因为提前停止取决于它的值。

到目前为止，我通过创建带有验证数据集的单独文件，将不同模型的预测保存在该数据集上并在python中比较它们的性能来绕开它，从而导致不必要的数据浪费。但是也许有一种方法可以明确地使用大众保留分数？

马丁·波普尔

总结一下评论，有几种方法可以使大众获得保持损失（可以组合使用）：

通过一次遍历学习，大众汽车会报告渐进式验证损失，在足够多的示例之后，该损失（简单地说）大约收敛到与保持损失相同的值。
多次通过后，大众汽车会--holdout_off根据每个第十个示例（而非随机的1/10个示例）报告保持损失（除非指定）。使用--holdout_period1可以指定与10不同的数字。
该参数--holdout_after=N指定将使用输入数据的前N个示例进行训练，并将文件的其余部分用作保留集（而不是第10个示例）。
可以使用-p predictions.txt并计算大众以外的损失（通过predictions.txt与带有金标的输入数据进行比较）。使用X传递时，predictions.txt将包含X * number_of_input_data_examples。因此，建议对训练数据进行训练（可能需要多次通过），将模型保存到文件中，然后仅使用VW预测：vw -i trained.model -t -d test.input -p test.predictions。
在某些情况下--save_per_pass或vw --daemon和按需节能模式可能会有所帮助。
为了从命令行轻松地计算保持（测试）损失和训练损失，可以使用vw-experiment。