假设我们有一些数据(输入),我们希望以此数据来预测一些输出。如果特定输入可以采用的可能值随着时间而改变,那么使用所有数据是否仍然合适?
让我尝试用一个例子来澄清。假设输入之一是[A, B, C]
在数据中具有唯一值的分类变量,但是我们知道,在当前将最终进行预测的当前设置中,只有这些值[A, B]
是可能的。
使用所有数据还是合适的,还是应该C
排除所有包含a的观测值?
IfC
不是唯一地映射到Target变量,而是与A
or / and共享一些目标变量B
。在这种情况下,留C
在数据集中,知道它肯定不会在将来的输入中发生(即,您预测未见输入的位置),将调整模型的假设(并且取决于模型,线性模型更多)因此,最终假设将基于冗余信息。
简单来说:In-Sample不代表Out-of-Sample,因此它会过拟合并且不会泛化!
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句