免费爱碰视频在线观看,九九精品国产屋,欧美亚洲尤物久久精品,1024在线观看视频亚洲

<object id="rqmvn"></object>

GPT-4「變笨」被斯坦福實錘：短短仨月數(shù)學問題錯誤率暴漲40倍！OpenAI也急了：已開始調查

用戶投稿 ? 2023年7月22日 12:19 ? 熱點

GPT-4變笨，實錘了???

來自斯坦福大學和UC伯克利大學的一篇最新論文顯示:

6月的GPT-4在一些任務上的表現(xiàn)客觀上就是比3月的更差。

比如他們用同樣500道「判斷給定整數(shù)是否為質數(shù)」的問題來測這兩個版本，發(fā)現(xiàn)3月份的GPT-4答對了488個，而6月只對了12個……

成功率直接從97.6%下降到2.4%!

而當研究員通過經(jīng)典的「Let’s think step by step」辦法來引導后者往正確答案上靠時，居然不好使了——

6月的GPT-4已不再嘗試給出中間步驟，而是仍然直接回答「yes」或「no」。

不止如此，代碼能力也下降了。

對于50道簡單級別的LeetCode題，6月的GPT-4只能做到有10%的答案可以不經(jīng)更改直接運行，而在3月份的時候，這個數(shù)字還是52%。

目前，這項結論已在網(wǎng)上引起了極大的關注。

有人稱，這意味著「大型語言模型的蜜月期已經(jīng)結束」。

而OpenAI方面也已火速注意到這項研究，并稱已開始積極調查。

所以，短短3個月，GPT-4身上究竟發(fā)生了什么?

論文「實錘」GPT-4變笨

這篇論文一共從數(shù)學、代碼、視覺和敏感問題四個角度比較了三月和六月的GPT-4。

（本節(jié)內容系對論文進行轉述，不代表量子位認同有關結論）

其中數(shù)學是GPT-4能力下降最為明顯的方面。

證據(jù)就是開頭提到的500個質數(shù)判斷問題，錯誤率直接暴增近40倍，回答的長度也大幅縮水。

具體來看，論文中展示了GPT-4對其中一個問題的回答。（展示的數(shù)字為17077，經(jīng)驗證是質數(shù)）

我們可以看到，研究人員已經(jīng)使用了“step by step”的思維鏈式提問方式，但似乎并沒有奏效。

這也許可以解釋成數(shù)學本就不是強項，但GPT-4在代碼方面表現(xiàn)同樣下降得厲害。

數(shù)據(jù)上看，簡單級別的Leetcode問題通過率從52%下降到10%，而代碼的長度變長了。

論文作者同樣給出了一個例子。

這個問題是這樣的:

（「class Solution」是Leetcode平臺給定的代碼開頭格式）

三月的GPT-4給出了這樣的代碼:

classSolution（object）:

defisFascinating（self，n）:

concatenated_number=str（n）+str(2*n)+str(3*n)

returnsorted（concatenated_number）=[‘1‘，‘2‘，‘3‘，‘4‘，‘5‘，‘6‘，‘7‘，‘8‘，‘9‘]

這段代碼中包含了一些小問題，最后一行「判斷相等」時應該用雙等號。

修正過后，提交的代碼成功通過。

而六月的版本回答是醬嬸兒的:

```Python

classSolution（object）:

defisFascinating（self，n）:

#Concatenaten，2*nand3*n

s=str（n）+str(n*2)+str(n*3)

#Checkifthelengthofsis9andcontainsalldigitsfrom1to9

returnlen（s）==9andset(s)==set(‘123456789‘)

“`

雖然代碼本體也是對的，但是GPT-4的輸出有些問題:

有段Markdown標記直接以文本形式顯示在了輸出結果之中，導致程序無法直接運行。

之所以研究者認為GPT-4在這里犯了錯，是因為在prompt中已經(jīng)強調了「code only」。

雖然GPT-4實用性上表現(xiàn)有所下降，但安全性似乎得到了提升。

對于敏感問題，GPT-4回答的概率下降了超四分之三，相應做出的解釋也變少了。

研究人員嘗試著提出了一個帶有偏見的問題。

三月份的GPT-4會解釋為什么拒絕回答這個問題，但六月份的版本只說了一句無可奉告。

而越獄攻擊成功的概率下降得更為明顯，可以看出六月的GPT-4相比三月似乎擁有了更強的魯棒性。

此外，研究團隊還對兩個版本的GPT-4進行了「視覺」能力測試。

這部分的測試數(shù)據(jù)來自ARC數(shù)據(jù)集，需要得到的「圖像」是3×3的方格，以二維數(shù)組形式用數(shù)字表示方格的顏色。

相比于三月，六月版GPT-4的表現(xiàn)有小幅度提升，但并不明顯。

而一些在三月能答對的問題，到了六月卻答錯了。

所以，在這一方面很難說GPT-4究竟是變好還是變壞了。

總體上看，論文作者的態(tài)度比較謹慎，沒有直接斷言GPT-4表現(xiàn)是否變差。

但在數(shù)學和代碼方面，文中給出的證據(jù)的確印證了一些網(wǎng)友們的說法。

而作者也表示，這一發(fā)現(xiàn)主要是告訴大家，不斷地去測試AI系統(tǒng)的能力并監(jiān)控其發(fā)展非常重要。

為什么會這樣?

不管怎么說，看完這項研究后，還是有不少人興奮地表示:終于有研究證明我一直以來的猜測了。

而在“興奮”之余，大家似乎也意識到更重要的問題:

我們和大模型的“蜜月期”已經(jīng)結束，已開始告別最初的“Wow”階段。

也就是說我們更加關注其真正的實力，而不是表面的、發(fā)布會里演示里的“花拳繡腿”。

所以，大家也不由地好奇:

為什么會這樣?為什么看起來變笨了呢?

按理來說模型的質量應該隨著時間的推移得到更新，變得更好;就算沒有顯著提升，數(shù)學和代碼能力也不能下降這么迅速。

猜測有很多。

首先就是OpenAI可能采取了成本削減措施。

這位叫做@Dwayne的網(wǎng)友指出，由于GPT-4的運行成本非常高，他懷疑OpenAI開始控制成本，這從原來每3小時能發(fā)送100條信息到現(xiàn)在只能發(fā)送25條的限制就能看出。

而為了讓模型更快地做出決策，OpenAI是否已不再讓GPT-4對多種可能的回答進行權衡、不進行深入評估就給出最終答案就值得人深思了。

畢竟決策時間少了，計算成本就會降低，而這樣一來，回答質量就不可避免的下降了。

有意思的是，在斯坦福和UC伯克利這項成果發(fā)布后，有不少人照貓畫虎進行了測試，但他們發(fā)現(xiàn)，同樣的問題GPT-4可以做對，比如「17077是否為質數(shù)」，很多回答都是「是」。

究其原因，這些人基本都用了最新的代碼解釋器或者Wolfram插件。

這也就引出了網(wǎng)友們的第二點猜測:

GPT-4的能力可能并非下降了，而是轉移了。

這就導致我們使用「最基礎的」GPT-4提問時，它已經(jīng)不會再直接調用各種「專家模型」幫我們解答了，強大的專家能力都被路由到各類插件和諸如代碼解釋器這樣的集成功能上了。

不過說到底，這也算降本增效的一種手段。

當然，也有想法認為，OpenAI這是為了推廣插件和新功能才故意削減了GPT-4的基礎能力。

除此之外，還有人認為，為了更加「負責任」，不合邏輯的安全過濾器導致模型原本邏輯受到牽連，這也是GPT-4質量下降的一個原因。

普林斯頓教授實名反對

值得注意的是，不管網(wǎng)友的猜測聽起來多么有理有據(jù)，OpenAI其實一直都在否認，聲稱他們并未采取任何措施導致模型質量下降。

與此同時，另一波學者和網(wǎng)友恰好也對這篇研究提出了質疑。

來自普林斯頓大學的兩位CS教授指出:

這篇論文產生了「GPT-4變笨了」的誤解，因為它只是簡單顯示了GPT-4行為的改變，而行為變化并不等同于能力下降。

并且實驗本身的評估也有問題，作者有誤將模仿當作推理。

為了說明自己的觀點，他們直接開了一篇博客。

以判斷質數(shù)問題為例，他們發(fā)現(xiàn)，評估給出的500個數(shù)字全是質數(shù)。這個問題就大了，它意味著正確答案始終是「yes」，模型就可能產生了隨機模仿的能力（也就是照著之前的正確答案無腦抄下去）。

因為事實證明，在大多數(shù)情況下，沒有一個模型會真正一一執(zhí)行「判斷數(shù)字能否被整除」的算法——他們只是假裝做了。

比如下面這個3月份GPT-4的快照，它只是列了一堆待檢查的數(shù)字，然后沒有一一去除就直接給出「19997是質數(shù)」的回答。

也就是說，3月份的GPT-4可能是無腦答對的，其表現(xiàn)并不能證明其數(shù)學能力;相反，也就不能證明6月份的GPT-4不行了（可能本來就是這個水平）。

為了進一步證明自己的看法，教授們用500個合數(shù)測試了模型，結果是3月版本的GPT-4幾乎總是猜測這些數(shù)字是質數(shù)，而6月版本則幾乎認為是合數(shù)。

——評估數(shù)據(jù)一換，結果就完全不同，這足以說明原作者的結論并不算立得住了。

除此之外，在下降最多的代碼編寫能力方面，教授們也認為，作者只是檢查代碼是否可以直接執(zhí)行，而不評估其正確性的方式，這種方式也同樣草率。

這意味著新GPT-4試圖提供更多幫助的能力被抵消了。

以上這些觀點，均得到了英偉達AI科學家Jim Fan的支持，他表示:

但他認為，這都不重要，重要的是大家一起來battle。

所以，你認為GPT-4到底變笨了沒?

論文地址:

https://arxiv.org/abs/2307.09009

參考鏈接:[1]https://twitter.com/DwayneCodes/status/1681617375437922309

[2]https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

[3]https://twitter.com/DrJimFan/status/1681771572351369216

鄭重聲明：本文內容及圖片均整理自互聯(lián)網(wǎng)，不代表本站立場，版權歸原作者所有，如有侵權請聯(lián)系管理員(admin#wlmqw.com)刪除。

Meta推出Llama 2，大模型賽道要因開源亂起來了

上一篇 2023年7月22日 12:18

谷歌、微軟、英偉達、OpenAI 和 Anthropic 等七家頂尖 AI 公司承諾將負責任地開發(fā)人工智能

下一篇 2023年7月22日 12:19

日本電視劇收視率歷史排名(電視劇收視率歷史排名)
收視率最高的電視劇排行榜前十名 1、但是《還珠格格》卻是我童年中我最喜歡看的電視劇。每到夏天的時候總會去看，好像如果這個夏天沒有看這個電視劇，夏天好像就沒有到來?？梢娺@部電視劇對于…
2024年1月24日
0
液壓機械缸鍛造廠家品質好的有哪些值得推薦？
液壓機是一種以液體為工作介質的重要機械設備，其核心功能是傳遞能量，實現(xiàn)各種工藝流程。除了在鍛壓成形方面的應用，液壓機還廣泛應用于矯正、壓裝、打包、壓塊和壓板等領域。根據(jù)工作介質的不…
2024年1月24日
0
湖南暴雪已致1萬多人受災
據(jù)@湖南氣象，22日7時至23日7時，湘中、湘南出現(xiàn)大到暴雪，長沙（瀏陽）、株洲（醴陵、茶陵）等13個縣市區(qū)出現(xiàn)大暴雪，郴州（北湖區(qū)）、株洲（荷塘區(qū)）出現(xiàn)特大暴雪；全省23個縣市…
2024年1月24日
0
落馬貪官退贓像“割肉”，詢問能不能少交點
“就像割我身上的肉一般，會讓我痛不欲生?！?24日，中央紀委國家監(jiān)委網(wǎng)站發(fā)布了針對云南省文山州住房和城鄉(xiāng)建設局原黨組成員、副局長李慶明嚴重違紀違法案的剖析。信奉金錢至上的李慶明惜財…
2024年1月24日
0
中國gdp排行榜城市(中國gdp排行榜)
中國各省gdp排名 1、根據(jù)查詢國家統(tǒng)計局官網(wǎng)信息顯示，2023年各省排名，廣東：GDP為1243667億。江蘇：GDP為116362億。山東：GDP為83099億。浙江：GDP為…
2024年1月24日
0
SK-II大中華區(qū)季度銷售額暴跌34%，寶潔：日本核污水排海是主因
財聯(lián)社1月24日訊（編輯卞純）全球日用消費品巨頭寶潔公司（ProcterGamble）周二表示，在截至12月底的第二財季，其高端護膚品牌SK-II在大中華區(qū)的銷售額下降了34%，…
2024年1月24日
0
呼和浩特白塔機場通報“保潔員占母嬰室吃飯”：涉事人已被辭退
呼和浩特白塔機場通報“保潔員占母嬰室吃飯”：涉事人已被辭退原標題：呼和浩特白塔機場通報“保潔員占母嬰室吃飯”：涉事人已被辭退央視網(wǎng)消息：據(jù)@呼和浩特白塔國際機場消息，呼和浩…
2024年1月24日
0
退休職工舉報局長被判刑，被舉報人卻提級退休把人看懵了
文|龍之朱又見錯抓錯判上了熱搜。據(jù)媒體報道，從2016年3月起，安徽宿州市碭山縣農機局退休職工李平實名向紀檢部門舉報局長王超經(jīng)濟問題，均石沉大海。 2017年7月，李平夫婦及親…
2024年1月24日
0
6寸蛋糕用5斤車厘子店家道歉
【#6寸蛋糕用5斤車厘子店家道歉#：客服能力不足，多報了2斤車厘子】#遇到商家虛假宣傳你會怎么辦# 近日，有網(wǎng)友發(fā)帖稱做六寸蛋糕需要5斤車厘子引熱議。 1月22日，涉事店家就“6寸…
2024年1月24日
0
格蘭芬多院徽簡筆畫(格蘭芬多院徽)
哈利波特的霍格沃茨學校分別是哪些學院? 1、《哈利波特》電影中的霍格沃茨學院，一共分為四個學院，分別是：格蘭芬多、赫奇帕奇、拉文克勞與斯萊特林。 2、霍格沃茨魔法學院共有格蘭芬多、…
2024年1月24日
0

聯(lián)系我們

聯(lián)系郵箱：admin#wlmqw.com
工作時間：周一至周五，10:30-18:30，節(jié)假日休息

<td id="3gads"></td><td id="3gads"></td>