prevalent- - Business Email Compromise
在本研究中,ROC 曲线(Receiver Operating Characteristic curve)用来评估机器学习模型在不同判定标准下区分“钓鱼网址”和“正常网址”的整体能力。
对于每一个网址,模型都会给出一个“是正常网址的概率”**。
当我们选择不同的概率阈值来做最终判断时,模型的行为会发生变化:
- 阈值较低时,模型会更“严格”,更容易把网址判为钓鱼,但也可能误伤一些正常网址;
- 阈值较高时,模型会更“宽松”,更容易放过钓鱼网址,但对正常网址更友好。
ROC 曲线正是把这些不同阈值下的取舍关系可视化的工具。
横轴和纵轴分别代表什么?
-
横轴(False Positive Rate,误报率)
表示在所有“正常网址”中,有多少被错误地判成了钓鱼网址。
换句话说,这是对正常用户造成干扰的比例。
-
纵轴(True Positive Rate,检出率)
表示在所有“钓鱼网址”中,有多少被成功识别出来。
这反映了模型拦截钓鱼攻击的能力。
ROC 曲线上的每一个点,都对应着模型在某一个阈值下的表现。
为什么 ROC 曲线越“靠左上角”越好?
理想情况下,我们希望模型能够:
-
尽可能多地识别出钓鱼网址(高检出率)
-
同时尽可能少地误报正常网址(低误报率)
因此,一条好的 ROC 曲线会快速向左上角弯曲,表示在保持较低误报率的同时,已经能够识别出大量钓鱼网址。
作为对比,图中的对角虚线表示随机猜测的水平:
如果模型的 ROC 曲线接近这条线,说明它几乎没有区分能力。
AUC 在本研究中说明了什么?
ROC 曲线下的面积(AUC,Area Under the Curve)可以理解为模型整体区分能力的一个单一数值总结:
-
AUC = 1.0:模型可以完美区分钓鱼与正常网址
-
AUC = 0.5:模型的表现与随机猜测无异
在本研究中,较高的 AUC 值表明该机器学习模型在不依赖固定阈值的情况下,整体上具有较强的区分钓鱼网址和正常网址的能力。
这也意味着,相比于基于固定规则的检测方法,机器学习模型在面对不同风险偏好和使用场景时,具有更大的调整空间和适应性。
一句话总结(可直接放 slide)
在本研究中,ROC 曲线展示了机器学习模型在不同判定标准下,钓鱼网址检出能力与正常网址误报率之间的权衡关系,而 AUC 则用一个数值总结了模型整体的区分能力。
如果你需要,我也可以给你:
-
📌 一句话版(给 caption 用)
-
📌 AP Research / ICBDA 风格方法论表述
-
📌 对比 rule-based 为什么很难画 ROC 的解释
直接说你要用在哪个场景即可。