着大模型在学习、工作中的广泛应用,其伴生问题也日益凸显,如生成虚假信息、冲击学术诚信等,精准识别 AI 生成内容成为亟待解决的问题。南开大学计算机学院媒体计算实验室的研究成果为解决该难题提供了可行方案。
- 现有检测方法的困境:目前 AI 生成内容检测主要有基于训练的检测方法和零样本检测方法两种路线。但多项研究表明,现有检测方法在应对复杂现实场景时面临困境,容易出现误判。例如,《荷塘月色》《流浪地球》等经典作品曾被某常用论文 AI 率检测系统检出高 AI 率。这是因为现有检测方法如同机械刷题、死记硬背,难以学会答题逻辑,遇到全新难题时准确率会显著下降,且由于大模型迭代飞速,收集所有大模型的数据进行训练几乎不可能。

- 直接差异学习(DDL)优化策略:研究团队提出的 DDL 方法,通过直接优化模型预测的文本条件概率差异与人为设定的目标值之间的差距,帮助模型学习 AI 文本检测的内在知识。这种方法可以精准捕捉人机文本间的深层语义差异,从而大幅提升检测器的泛化能力与鲁棒性。使用 DDL 训练得到的检测器即便只 “学习” 过 DeepSeek - R1 的文本,也能精准识别像 GPT - 5 这样最新大模型生成的内容。
- 全面的测试基准数据集 MIRAGE:团队提出的 MIRAGE 数据集使用 13 种主流的商用大模型以及 4 种先进的开源大模型,从 AI 生成、润色、重写三个角度构造了接近 10 万条人类 - AI 文本对。MIRAGE 是目前唯一聚焦商用大语言模型检测的基准数据集,相比之前由少且能力简单的大模型命题出卷的基准数据集,它由 17 个能力强大的大模型联合命题,形成一套高难度、又有代表性的检测试卷 。在 MIRAGE 的测试中,现有检测器的准确率从在简单数据集上的 90% 骤降至约 60%;而使用 DDL 训练的检测器仍保持 85% 以上的准确率。与斯坦福大学提出的 AI 生成文本检测工具 DetectGPT 相比,使用 DDL 方法训练的检测器性能提升 71.62%;与马里兰大学、卡内基梅隆大学等共同提出的 AI 生成文本检测方法 Binoculars 相比,性能提升 68.03%。
发表评论 取消回复