極客號(hào)(Xqh8.com) 8月26日 消息:最近一項(xiàng)針對(duì)ChatGPT的研究發(fā)現(xiàn),其在32門(mén)大學(xué)課程的測(cè)試中,有9門(mén)的表現(xiàn)可與學(xué)生相比或甚至優(yōu)于學(xué)生。
在一項(xiàng)實(shí)驗(yàn)中,紐約大學(xué)阿布扎比分校 (NYUAD) 的教師首先被要求提供各自講座中的十個(gè)問(wèn)題,以及每個(gè)問(wèn)題隨機(jī)選擇的三名學(xué)生的答案。
然后研究人員使用ChatGPT為每個(gè)問(wèn)題生成三個(gè)不同的答案。問(wèn)題直接輸入 ChatGPT,提示中沒(méi)有任何其他上下文。
盡管參考文獻(xiàn)中提到了 GPT-4,但從研究中尚不清楚使用的是GPT-3.5還是GPT-4。如果使用GPT-3.5,則使用 GPT-4的 AI 響應(yīng)質(zhì)量可能會(huì)更好,尤其是在推理方面。
ChatGPT 回復(fù)生成后,將其與學(xué)生回復(fù)混合,并由三位不同的審閱者評(píng)分。ChatGPT 在32個(gè)科目中有9個(gè)科目的表現(xiàn)與人類(lèi)學(xué)生一樣好,甚至更好。這九個(gè)科目分別是
數(shù)據(jù)結(jié)構(gòu)公共政策概論定量合成生物學(xué)網(wǎng)絡(luò)戰(zhàn)面向?qū)ο缶幊掏聊竟こ滩牧系慕Y(jié)構(gòu)與性能生物心理學(xué)氣候/變化管理與組織
在“公共政策概論”課程中,ChatGPT的平均得分是學(xué)生的兩倍多。另一方面,學(xué)生在需要更高認(rèn)知技能的數(shù)學(xué)和經(jīng)濟(jì)任務(wù)中表現(xiàn)優(yōu)于 ChatGPT。
研究人員還測(cè)試了他們是否能夠使用 OpenAI 的人工智能文本分類(lèi)器和GPTZero可靠地區(qū)分人類(lèi)文本和機(jī)器文本,該分類(lèi)器因不可靠而被該公司撤回。
OpenAI 工具將5% 的人類(lèi)文本錯(cuò)誤分類(lèi)為機(jī)器文本,而 GPTZero 將18% 的人類(lèi)文本錯(cuò)誤分類(lèi)??紤]到所涉學(xué)生可能被錯(cuò)誤地指控作弊的潛在后果,這是一個(gè)災(zāi)難性的結(jié)果。
相反,OpenAI 工具將49% 的機(jī)器生成文本識(shí)別為人類(lèi)文本,而 GPTZero 的這一比例為32%。在這兩種情況下,人工智能文本作為人類(lèi)文本傳遞的可能性都很高。