我想对设备的故障和无故障条件进行分类。标签A表示故障,标签B表示无故障。
scikit-learn
给我一份关于分类矩阵的报告:
precision recall f1-score support
A 0.82 0.18 0.30 2565
B 0.96 1.00 0.98 45100
现在我应该使用A或B中的哪个结果来指定模型操作?
没有一个可以整体描述模型的分数,这完全取决于您的目标。在您的情况下,您正在处理故障检测,因此您有兴趣在数量更多的非故障情况下查找故障。相同的逻辑适用于例如人口和发现携带病原体的个体。
在这种情况下,对“故障”案例(或例如您可能生病)进行高召回率(也称为敏感性)通常非常重要。在这样的筛选中,通常可以将其诊断为“故障”,而实际上它可以正常工作-这就是您的误报。为什么?因为错过发动机或肿瘤中有故障的零件的成本要比要求工程师或医生验证病例的成本高得多。
假设这种假设(故障的召回是最重要的指标)在您的情况下成立,那么您应该考虑标签A的召回(故障)。按照这些标准,您的模型运行情况很差:仅发现18%的故障。故障的数量可能比非故障小20倍左右,这会带来严重的偏差(需要解决)。
我可以想到很多情况下该分数实际上不会很差。如果您可以检测到引擎中所有故障的18%(在其他系统之上),并且不引入错误警报,那么它真的很有用-您不需要在状况良好的情况下向驾驶员发出过多的警报。同时,您可能不想在癌症检测中使用相同的逻辑,并告诉患者“一切都好”,而诊断错误的可能性很高。
为了完整起见,我将解释这些术语。考虑以下定义:
这是一篇文章,试图很好地解释什么是精度,召回率和F1。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句