ROC 分析(ROC Analysis)

相对于测试的假阳性率绘制真实的阳性率。

输入

  • 评估结果:测试分类算法的结果

功能

小部件显示测试模型和相应凸包的ROC曲线。它用作分类模型之间比较的一种方式。该曲线绘制了 x 轴上的假阳性率(1 - 特异性;当真值 = 0目标 = 1的概率)相对于 y 轴上的假阳性率(灵敏度;当真值 = 1目标 = 1的概率)。曲线越接近 ROC 空间的左边界,然后贴近上边界,则分类器越准确。给定假阳性和假阴性的损失,小部件还可以确定最佳分类器和阈值。

界面

  1. 选择所需的 目标类别。 默认类别是按字母顺序选择的。
  2. 如果测试结果包含多个分类器,则用户可以选择要查看的曲线。 单击分类器以选择或取消选择它。
  3. 当数据来自训练和测试的多次迭代(例如 k 折叠交叉验证)时,可以(通常是)平均结果。 平均选项是:
    • 合并折叠预测(左上),将所有测试数据视为来自一次迭代
    • 平均TP速率(右上)将曲线垂直平均,显示相应的置信区间
    • 平均TP和FP处于阈值(左下)超过阈值,对曲线的位置进行平均,并显示水平和垂直置信区间
    • 显示单个曲线(右下)不取平均值,而是打印所有曲线
  4. 选项 显示凸ROC曲线 指每个单独分类器上的凸曲线(位于曲线上的细线)。显示ROC凸包 绘制结合了所有分类器的凸包(曲线下方的灰色区域)。绘制两种类型的凸曲线是有意义的,因为在不考虑损失和矩阵的情况下,在曲线的凹部分中选择阈值无法产生最佳结果。此外,通过组合由凹入区域的边界上的点表示的分类器,可以到达凸出曲线上的任何点。

对角虚线表示随机分类器的行为。完整的对角线代表等性能。 图形底部的黑色 “A” 符号按比例重新调整图形。

  1. 最后一个框专用于曲线分析。用户可以指定假阳性(FP)和假阴性(FN)的损失以及先验目标分类概率。
    • 默认阈值(0.5)点 如果分类器预测目标类别(如果其概率等于或超过0.5)则 ROC 曲线上显示的点。
    • 显示性能线 显示 ROC 空间中的同等性能,因此该线上的所有点都具有相同的损益。左上方的线比右下方的线好。线的方向取决于损失和概率。 这给出了描述给定损失的最佳阈值的方法:这是具有给定倾斜度的切线与曲线接触并在图中标出的点。 如果将等性能线向左或向上推,学习者将无法达到等性能线上的点。 向下或向右移动会降低性能。
    • 该小部件允许将损失设置为1到1000。单位不重要,幅度也不重要。 重要的是这两个损失之间的关系,因此将它们设置为100和200将得到与400和800相同的结果。 默认值:两个损失相等(500),先验目标类别概率为50%(来自数据)。

    假阳性损失:830,假阴性650,先验目标损失概率73%

  2. 如果要将创建的图像保存到您的计算机,请按 保存图像 保存.svg或.png 格式到计算机。
  3. 生成报告。

示例

目前,唯一提供 ROC 分析(ROC Analysis) 所需信号类型正确的小部件是测试与评分(Test & Score)。 下面,我们在 测试与评分(Test & Score) 中比较两个分类器,即树(Tree)朴素贝叶斯(Naive Bayesian),然后在 ROC 分析(ROC Analysis) 提升曲线(Lift Curve)校准图(Calibration Plot)中比较它们的性能 ,。

反馈问题

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

点我反馈

进入反馈页面不知道如何反馈, 请点击这里

更新时间: