prevalent- - Business Email Compromise

在本研究中,ROC 曲线(Receiver Operating Characteristic curve)用来评估机器学习模型在不同判定标准下区分“钓鱼网址”和“正常网址”的整体能力

对于每一个网址,模型都会给出一个“是正常网址的概率”**。
当我们选择不同的概率阈值来做最终判断时,模型的行为会发生变化:

  • 阈值较低时,模型会更“严格”,更容易把网址判为钓鱼,但也可能误伤一些正常网址;
  • 阈值较高时,模型会更“宽松”,更容易放过钓鱼网址,但对正常网址更友好。

ROC 曲线正是把这些不同阈值下的取舍关系可视化的工具。


横轴和纵轴分别代表什么?

  • 横轴(False Positive Rate,误报率)

    表示在所有“正常网址”中,有多少被错误地判成了钓鱼网址。

    换句话说,这是对正常用户造成干扰的比例

  • 纵轴(True Positive Rate,检出率)

    表示在所有“钓鱼网址”中,有多少被成功识别出来。

    这反映了模型拦截钓鱼攻击的能力

ROC 曲线上的每一个点,都对应着模型在某一个阈值下的表现。


为什么 ROC 曲线越“靠左上角”越好?

理想情况下,我们希望模型能够:

  • 尽可能多地识别出钓鱼网址(高检出率)

  • 同时尽可能少地误报正常网址(低误报率)

因此,一条好的 ROC 曲线会快速向左上角弯曲,表示在保持较低误报率的同时,已经能够识别出大量钓鱼网址。

作为对比,图中的对角虚线表示随机猜测的水平

如果模型的 ROC 曲线接近这条线,说明它几乎没有区分能力。


AUC 在本研究中说明了什么?

ROC 曲线下的面积(AUC,Area Under the Curve)可以理解为模型整体区分能力的一个单一数值总结

  • AUC = 1.0:模型可以完美区分钓鱼与正常网址

  • AUC = 0.5:模型的表现与随机猜测无异

在本研究中,较高的 AUC 值表明该机器学习模型在不依赖固定阈值的情况下,整体上具有较强的区分钓鱼网址和正常网址的能力。

这也意味着,相比于基于固定规则的检测方法,机器学习模型在面对不同风险偏好和使用场景时,具有更大的调整空间和适应性


一句话总结(可直接放 slide)

在本研究中,ROC 曲线展示了机器学习模型在不同判定标准下,钓鱼网址检出能力与正常网址误报率之间的权衡关系,而 AUC 则用一个数值总结了模型整体的区分能力。

如果你需要,我也可以给你:

  • 📌 一句话版(给 caption 用)

  • 📌 AP Research / ICBDA 风格方法论表述

  • 📌 对比 rule-based 为什么很难画 ROC 的解释

直接说你要用在哪个场景即可。