AI检测工具错误指控学生作弊，后果很严重

2024-10-21 06:54| 发布者: dootbear | 查看: 1779| 原文链接

彭博社周末长篇报道：AI检测工具错误指控学生作弊，后果很严重

约三分之二的教师报告称，他们定期使用检测AI生成内容的工具。

在这种使用规模下，即使是极小的错误率也会迅速累积。

奥姆斯特德（Moira Olmsted）在疫情初期休学一段时间开始组建家庭，后来她迫切想回到学校。

她在几个月内一边打全职工，一边照顾一个小孩，努力攒钱报了一个自定进度的课程，可以远程学习。

2023年，她怀着第二个孩子，已经怀孕七个月，报名了中央卫理公会大学（Central Methodist University）的在线课程，计划成为一名教师。

刚进入秋季学期几周，奥姆斯特德提交了一份写作作业，这是她每周必须完成的三份读书总结之一。很快，她收到了零分的成绩。奥姆斯特德向她的教授询问情况时，教授告诉她，AI检测工具认定她的作业可能是由人工智能生成的。

事实上，教授还表示，她的写作之前至少被标记过一次。

对于24岁的奥姆斯特德来说，这种指控简直是“晴天霹雳”。这也威胁到了她在学校的学业地位。

她说，“我当时就觉得，天啊，这是目前唯一适合我们的学习方式，结果却可能因为我没有做过的事情而被剥夺。”。

奥姆斯特德向她的教授和一位学生协调员提出异议，强调她有自闭症谱系障碍，写作方式比较公式化，可能会被误认为是AI生成的内容。这些信息来自《彭博商业周刊》查看的邮件。

最终，她的成绩被更改了，但在此之前她收到了严厉的警告：如果她的作业再次被标记，教授会像对待剽窃行为一样处理。

自从OpenAI的ChatGPT大约两年前将生成式AI带入大众视野以来，学校一直在适应这一变革。教育工作者现在依赖越来越多的检测工具来帮助发现由AI生成的句子、段落或整篇作业。

据民主与技术中心（Center for Democracy & Technology）3月发布的一项针对450多名教师的调查显示，约三分之二的教师报告称，他们定期使用AI检测工具。

最好的AI写作检测器非常准确，但它们并不完美。

《彭博商业周刊》测试了两个领先的服务，GPTZero和Copyleaks，使用的是2022年夏季提交给德州农工大学（Texas A&M University）的500篇大学申请论文的随机样本，这些论文是在ChatGPT发布前提交的，因此几乎可以保证它们不是AI生成的。

论文是通过公共记录请求获得的，也就是说，它们不属于AI工具训练的数据集。

《彭博商业周刊》发现，这些服务错误地将1%到2%的论文标记为可能由AI撰写，有些情况下甚至声称几乎有100%的确定性。

即便如此小的错误率，在每年大量学生作业的情况下也可能迅速累积，导致可能给被误判的学生带来毁灭性的后果。

与更传统的作弊和剽窃指控一样，使用AI完成作业的学生不得不重新做作业，面临不及格的成绩和留校察看的风险。

AI检测工具可能会错误标记论文为由AI生成

《彭博商业周刊》测试了两个领先的AI检测工具，使用的是500篇在ChatGPT发布前提交的论文样本，结果显示这些服务错误地将1%到2%的论文标记为可能由AI生成。

那些最容易受到错误指控的学生通常是那些写作风格较为普通的学生，无论是因为他们像奥姆斯特德一样有神经发育差异，还是因为他们是英语非母语（ESL）的学生，或仅仅是因为他们学会了使用更直接的词汇和机械化的写作风格。

据学生，学者和AI开发人员的说法，2023年斯坦福大学研究人员的一项研究发现，AI检测器在检查美国出生的八年级学生的论文时几乎“完美无缺”，但超过一半的非母语英语学生的论文被标记为AI生成。

OpenAI最近表示，它部分地因为担心AI写作检测工具可能对某些群体产生负面影响，尤其是对英语非母语的学生，因此暂时没有发布此类工具。

《彭博商业周刊》还发现，AI检测服务有时可能会被设计用于伪装AI写作为人类撰写的自动化工具所欺骗。

这可能会导致一场技术对抗的军备竞赛，损害教育工作者和学生之间的信任，而几乎没有教育收益。

奥姆斯特德表示，她的作业使用了流行的AI检测工具Turnitin，Turnitin称其在分析句子时的误报率为4%。Turnitin拒绝提供其服务以供测试。在2023年发布的一篇博客文章中，范德堡大学（Vanderbilt University）提到，由于担心准确性，他们已关闭了Turnitin的AI检测服务，否则在学年中将有数百篇学生论文被错误地部分标记为由AI撰写。

萨希布（Ken Sahib）是一名多语种学生，他大部分童年在意大利度过。

他说，当他在纽约伯克利学院（Berkeley College）的《网络入门》课程中提交了一份读书总结作业并被打零分时，他感到“非常沮丧”。

根据《彭博商业周刊》查看的电子邮件内容，当萨希布询问时，老师说：“我试过的每个工具都得出了相同的结果：这些回答是AI生成的。”

“你知道你在做什么。”

萨希布最终通过了这门课，但这一事件却使他与教授的关系受到了破裂。

他说，“从那以后我们几乎没怎么说话”。教授没有回应置评请求。

尽管一些教育工作者已放弃了AI检测器，尝试调整课程以融合AI，但许多大学和高中仍在使用这些工具。根据投资数据公司PitchBook的数据，自2019年以来，AI检测初创公司已吸引了约2800万美元的资金，其中大部分交易是在ChatGPT发布后达成的。

PitchBook发现，2023年，检测AI生成文本、图像、音频和视频的深伪检测初创公司融资超过3亿美元，而前一年约为6500万美元。

因此，根据美国各地12名学生和11名教师的采访，教室里依然充满了对错误指控的焦虑和疑虑。现在，本科生们需要花费大量时间为自己的作业正名，他们认为这一过程削弱了学习体验。一些学生还担心使用那些专门面向学生的AI写作辅助服务和语法检查器，担心它们会触发AI检测器。

Turnitin的AI副总裁Eric Wang表示，该公司有意在其数据集中“过度采样”了代表性不足的群体。

他说，内部测试显示，Turnitin的模型不会错误地指控ESL学生，而且其对整篇文档的总体误报率低于1%，并且随着每次新版本的发布不断改进。

Turnitin并未专门训练神经发育差异学生的数据，也没有访问医疗历史来评估这一分类。

Copyleaks联合创始人兼首席执行官亚敏（Alon Yamin）表示，其技术的准确率为99%。“我们明确告知学术机构，没有任何工具是100%准确的，它应该用于发现学生作业中的趋势”

他说。“这就像给教师一个黄牌提醒，给他们一个机会与学生讨论。”

GPTZero的创始人兼首席执行官Edward Tian表示,“每个AI检测器都有盲点”。他说，公司已经在消除ESL学生的偏差方面取得了进展，并采取措施更清楚地指示工具对写作作品的评估不确定性程度，方便教师理解。

Edward Tian在2023年初开发了GPTZero。

截至7月，他的初创公司已有400万用户，高于一年前的100万，最近还从包括OpenAI首席执行官的兄弟杰克·奥特曼（Jack Altman）在内的投资者那里筹集了一千万美元。

Edward Tian说，“上个学期是最活跃的一个学期。这表明这个问题不会消失，但它确实发生了变化。一年前，人们最常问的问题是：这是不是AI生成的？”

现在，他说，教师们知道AI已经进入了课堂，问题是：“该如何应对？”

量化学校中的AI使用情况充满挑战。在一次测试中，《彭博商业周刊》分析了另一组305篇2023年夏季提交给德州农工大学的论文，发现同样的

AI检测器标记了约9%的论文为AI生成。

AI写作检测器通常会查看“困惑度”，即词汇复杂程度的一种衡量指标。斯坦福大学生物医学数据科学教授、斯坦福大学关于ESL学生研究的资深作者James Zou说，“如果选择的词汇较为普通和公式化，那么该作品就更有可能被AI检测器标记为AI生成的”。

例如，AI检测服务QuillBot指出，“AI生成的内容可能包含重复的词语、生硬的措辞以及不自然、断断续续的表达。”

GPTZero还考虑了它所谓的“爆发性”标准，即衡量写作作品中困惑度的变化程度。根据该公司说法，AI不同于人类，“人们往往会在整篇文档中频繁地变化句子结构和措辞。”

AI检测公司强调，他们的服务不应被视为裁判，陪审团和执行者，而应作为帮助教师的一个数据点。

亚敏表示，与Copyleaks合作的大多数学校现在都向学生提供该服务，“以便他们可以自证清白”，查看自己的AI评分。

与此同时，Turnitin正在扩大其AI产品组合，推出了一项帮助学生展示自己完成作业过程的服务，响应教师和学生的反馈。

Turnitin的首席产品官安妮·切奇泰利（Annie Chechitelli）说，学生们说，我希望能够证明这是我的作业，我希望能够自信地证明没有任何问题。教师们则表示，我需要更多的数据点来帮助我理解学生是如何完成作业的。

作业被标记后，奥姆斯特德说，她变得非常小心，力求避免再次被指控。

她会录制自己在电脑上完成写作作业的屏幕操作，并使用Google Docs跟踪她的更改，创建数字证据链。

她甚至试图修改自己的词汇和句法。

奥姆斯特德说，“我非常紧张，担心走到这一步却再遇到AI指控”，她计划于春季毕业。

“我有太多东西要失去。”

门多萨（Nathan Mendoza）是加州大学圣地亚哥分校（University of California at San Diego）的化学工程专业三年级学生，他会用GPTZero对自己的作业进行预检测。

他说，现在完成作业的大部分时间都花在调整措辞上，以避免被错误标记，这些调整使他的写作听起来更糟。其他学生则通过所谓的AI人性化服务来加快这一过程，这些服务可以自动重写作业以通过AI检测器。

“AI人性化工具”重写了一篇由人类撰写的论文，绕过了AI检测。

《彭博商业周刊》测试了一个名为Hix Bypass的服务，发现GPTZero错误标记为98.1% AI撰写的论文，在该服务重写后，标记下降至5.3%。

对AI检测器的恐惧也迫使学生重新考虑是否使用热门的在线写作辅助工具。

Grammarly，这家2021年估值130亿美元的初创公司，帮助学生处理从基本的拼写检查到结构建议的所有工作。但它也扩展了功能，提供自动重写整篇作业的选项，以满足某些标准，挑战了教师可能认为可以接受的界限。

《彭博商业周刊》发现，使用Grammarly来“改善”一篇论文或“使其听起来更学术”会将通过100%人类撰写的作业转变为100% AI生成的作业。然而，Grammarly的拼写检查和语法建议对使文档看起来像AI生成的影响微乎其微。

佛罗里达西南州立学院（Florida SouthWestern State College）的学生阿贝拉尔（Kaitlyn Abellar）表示，她已经卸载了电脑上的Grammarly插件。北乔治亚大学（University of North Georgia）的学生史蒂文斯（Marley Stevens）去年发布了一段关于她经历的病毒式TikTok视频，她的作业因Turnitin将其标记为AI生成而被处罚。

史蒂文斯说，经过一场纪律听证会，决定她作弊，她被留校察看一年。

她坚持自己亲自撰写了作业，只使用了Grammarly的标准拼写检查和语法功能。

Grammarly教育部门主管珍妮·麦克斯韦尔（Jenny Maxwell）说，这是一个意图良好的学生，她以负责任的方式使用Grammarly，结果却被第三方技术标记为违规。我们无法改变Turnitin的运作方式，他们理解自己有误报。

这一事件促使Grammarly为学生开发了一种检测工具，识别文本是键入的，从其他来源粘贴的，还是由AI模型撰写的。

他说，这几乎像是你的保险政策。

对部分教育工作者和学生来说，当前的系统似乎不可持续，因其对教师和学生双方都施加了压力，而且AI的存在已经成为不可避免的事实。

马里兰大学的英语教授劳埃德（Adam Lloyd）说，“无论我们是否喜欢，人工智能将成为未来的一部分。将AI视为我们需要排除在课堂之外或阻止学生使用的东西是错误的。”

劳埃德的学校可以使用Turnitin，但他更愿意依靠自己的直觉。

他说，“我了解我的学生的写作风格，如果我有怀疑，我会进行公开讨论，而不是自动指控他们。”。

来源：

https://www.bloomberg.com/news/f ... ?srnd=homepage-asia

By Jackie Davalos and Leon Yin
19 October 2024 at 2:00 am AEDT

		自动登录	找回密码
密码			注册