免费爱碰视频在线观看,九九精品国产屋,欧美亚洲尤物久久精品,1024在线观看视频亚洲

發(fā)布一天，Code Llama代碼能力突飛猛進(jìn)，微調(diào)版HumanEval得分超GPT-4

用戶投稿 ? 2023年8月27日 12:16 ? 熱點(diǎn)

昨天（8月25日）的我:在代碼生成方面開源 LLM 將在幾個(gè)月內(nèi)擊敗 GPT-4。現(xiàn)在的我:實(shí)際上是今天。

昨天，meta 開源專攻代碼生成的基礎(chǔ)模型Code Llama，可免費(fèi)用于研究以及商用目的。

Code Llama 系列模型有三個(gè)參數(shù)版本，參數(shù)量分別為7B、13B 和34B。并且支持多種編程語言，包括 Python、C++、Java、PHP、Typescript （Javascript）、C# 和 Bash。

meta 提供的 Code Llama 版本包括:

Code Llama，基礎(chǔ)代碼模型;

Code Llama-Python，Python 微調(diào)版;

Code Llama-Instruct，自然語言指令微調(diào)版。

就其效果來說，Code Llama 的不同版本在 Humaneval 和 MBPP 數(shù)據(jù)集上的一次生成通過率（pass@1）都超越 GPT-3.5。

此外，Code Llama 的「Unnatural」34B 版本在 Humaneval 數(shù)據(jù)集上的 pass@1接近了 GPT-4（62.2% vs67.0%）。不過 meta 沒有發(fā)布這個(gè)版本，但通過一小部分高質(zhì)量編碼數(shù)據(jù)的訓(xùn)練實(shí)現(xiàn)了明顯的效果改進(jìn)。

圖源:https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/

一天剛過，就有研究者向 GPT-4發(fā)起了挑戰(zhàn)。他們來自 Phind（一個(gè)組織，旨在構(gòu)造一款為開發(fā)人員而生的AI 搜索引擎），該研究用微調(diào)的 Code Llama-34B 在 Humaneval 評估中擊敗了 GPT-4。

Phind 聯(lián)合創(chuàng)始人 Michael Royzen 表示:「這只是一個(gè)早期實(shí)驗(yàn)，旨在重現(xiàn)（并超越）meta 論文中的「Unnatural Code Llama」結(jié)果。將來，我們將擁有不同 CodeLlama 模型的專家組合，我認(rèn)為這些模型在現(xiàn)實(shí)世界的工作流程中將具有競爭力?！?/p>

兩個(gè)模型均已開源:

研究者在 Huggingface 上發(fā)布了這兩個(gè)模型，大家可以前去查看。

Phind-CodeLlama-34B-v1:https://huggingface.co/Phind/Phind-CodeLlama-34B-v1

Phind-CodeLlama-34B-Python-v1:https://huggingface.co/Phind/Phind-CodeLlama-34B-Python-v1

接下來我們看看這項(xiàng)研究是如何實(shí)現(xiàn)的。

微調(diào) Code Llama-34B 擊敗 GPT-4

我們先看結(jié)果。這項(xiàng)研究用 Phind 內(nèi)部數(shù)據(jù)集對 Code Llama-34B 和 Code Llama-34B-Python 進(jìn)行了微調(diào)，分別得到兩個(gè)模型 Phind-CodeLlama-34B-v1以及 Phind-CodeLlama-34B-Python-v1。

新得到的兩個(gè)模型在 Humaneval 上分別實(shí)現(xiàn)了67.6% 和69.5% pass@1。

作為比較，CodeLlama-34B pass@1為48.8%;CodeLlama-34B-Python pass@1為53.7%。

而 GPT-4在 Humaneval 上 pass@1為67%（OpenAI 在今年3月份發(fā)布的「GPT-4Technical Report」中公布的數(shù)據(jù)）。

圖源:https://ai.meta.com/blog/code-llama-large-language-model-coding/

圖源:https://cdn.openai.com/papers/gpt-4.pdf

談到微調(diào)，自然少不了數(shù)據(jù)集，該研究在包含約8萬個(gè)高質(zhì)量編程問題和解決方案的專有數(shù)據(jù)集上對 Code Llama-34B 和 Code Llama-34B-Python 進(jìn)行了微調(diào)。

該數(shù)據(jù)集沒有采用代碼補(bǔ)全示例，而是采用指令 – 答案對，這與 Humaneval 數(shù)據(jù)結(jié)構(gòu)不同。之后該研究對 Phind 模型進(jìn)行了兩個(gè) epoch 的訓(xùn)練，總共有約16萬個(gè)示例。研究者表示，訓(xùn)練中沒有使用 LoRA 技術(shù)，而是采用了本地微調(diào)。

此外，該研究還采用了 DeepSpeed ZeRO3和 Flash Attention2技術(shù)，他們在32個(gè) A100-80GB GPU 上、耗時(shí)三個(gè)小時(shí)，訓(xùn)練完這些模型，序列長度為4096個(gè) token。

此外，該研究還將 OpenAI 的去污染（decontamination）方法應(yīng)用于數(shù)據(jù)集，使模型結(jié)果更加有效。

眾所周知，即便是非常強(qiáng)大的 GPT-4，也會面臨數(shù)據(jù)污染的困境，通俗一點(diǎn)的講就是訓(xùn)練好的模型可能已經(jīng)接受評估數(shù)據(jù)的訓(xùn)練。

這個(gè)問題對 LLM 非常棘手，舉例來說，在評估一個(gè)模型性能的過程中，為了進(jìn)行科學(xué)可信的評估，研究者必須檢查用于評估的問題是否在模型的訓(xùn)練數(shù)據(jù)中。如果是的話，模型就可以記住這些問題，在評估模型時(shí)，顯然會在這些特定問題上表現(xiàn)更好。

這就像一個(gè)人在考試之前就已經(jīng)知道了考試問題。

為了解決這個(gè)問題，OpenAI 在公開的 GPT-4技術(shù)文檔《 GPT-4Technical Report 》中披露了有關(guān) GPT-4是如何評估數(shù)據(jù)污染的。他們公開了量化和評估這種數(shù)據(jù)污染的策略。

具體而言，OpenAI 使用子串匹配來測量評估數(shù)據(jù)集和預(yù)訓(xùn)練數(shù)據(jù)之間的交叉污染。評估和訓(xùn)練數(shù)據(jù)都是通過刪除所有空格和符號，只保留字符（包括數(shù)字）來處理的。

對于每個(gè)評估示例，OpenAI 隨機(jī)選擇三個(gè)50個(gè)字符的子字符串（如果少于50個(gè)字符，則使用整個(gè)示例）。如果三個(gè)采樣的評估子字符串中的任何一個(gè)是處理后的訓(xùn)練樣例的子字符串，則確定匹配。

這將產(chǎn)生一個(gè)受污染示例的列表，OpenAI 丟棄這些并重新運(yùn)行以獲得未受污染的分?jǐn)?shù)。但這種過濾方法有一些局限性，子串匹配可能導(dǎo)致假陰性（如果評估和訓(xùn)練數(shù)據(jù)之間有微小差異）以及假陽性。因而，OpenAI 只使用評估示例中的部分信息，只利用問題、上下文或等效數(shù)據(jù)，而忽略答案、回應(yīng)或等效數(shù)據(jù)。在某些情況下，多項(xiàng)選擇選項(xiàng)也被排除在外。這些排除可能導(dǎo)致假陽性增加。

關(guān)于這部分內(nèi)容，感興趣的讀者可以參考論文了解更多。

論文地址:https://cdn.openai.com/papers/gpt-4.pdf

不過，Phind 在對標(biāo) GPT-4時(shí)使用的 Humaneval 分?jǐn)?shù)存在一些爭議。有人說，GPT-4的最新測評分?jǐn)?shù)已經(jīng)達(dá)到了85%。但 Phind 回復(fù)說，得出這個(gè)分?jǐn)?shù)的相關(guān)研究并沒有進(jìn)行污染方面的研究，無法確定 GPT-4在接受新一輪測試時(shí)是否看到過 Humaneval 的測試數(shù)據(jù)。再考慮到最近一些有關(guān)「GPT-4變笨」的研究，所以用原始技術(shù)報(bào)告中的數(shù)據(jù)更為穩(wěn)妥。

不過，考慮到大模型評測的復(fù)雜性，這些測評結(jié)果能否反映模型的真實(shí)能力依然是一個(gè)有爭議的問題。大家可以下載模型后自行體驗(yàn)。

參考鏈接:

https://benjaminmarie.com/the-decontaminated-evaluation-of-gpt-4/

https://www.phind.com/blog/code-llama-beats-gpt4

鄭重聲明：本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng)，不代表本站立場，版權(quán)歸原作者所有，如有侵權(quán)請聯(lián)系管理員(admin#wlmqw.com)刪除。

中國內(nèi)地8月30日上映：諾蘭全新大片《奧本海默》北美票房超《盜夢空間》

上一篇 2023年8月27日 12:16

Bored Humans提供Midjourney等100多款主流AI工具的免費(fèi)平替版本

下一篇 2023年8月27日 12:16

日本電視劇收視率歷史排名(電視劇收視率歷史排名)
收視率最高的電視劇排行榜前十名 1、但是《還珠格格》卻是我童年中我最喜歡看的電視劇。每到夏天的時(shí)候總會去看，好像如果這個(gè)夏天沒有看這個(gè)電視劇，夏天好像就沒有到來?？梢娺@部電視劇對于…
2024年1月24日
0
液壓機(jī)械缸鍛造廠家品質(zhì)好的有哪些值得推薦？
液壓機(jī)是一種以液體為工作介質(zhì)的重要機(jī)械設(shè)備，其核心功能是傳遞能量，實(shí)現(xiàn)各種工藝流程。除了在鍛壓成形方面的應(yīng)用，液壓機(jī)還廣泛應(yīng)用于矯正、壓裝、打包、壓塊和壓板等領(lǐng)域。根據(jù)工作介質(zhì)的不…
2024年1月24日
0
湖南暴雪已致1萬多人受災(zāi)
據(jù)@湖南氣象，22日7時(shí)至23日7時(shí)，湘中、湘南出現(xiàn)大到暴雪，長沙（瀏陽）、株洲（醴陵、茶陵）等13個(gè)縣市區(qū)出現(xiàn)大暴雪，郴州（北湖區(qū)）、株洲（荷塘區(qū)）出現(xiàn)特大暴雪；全省23個(gè)縣市…
2024年1月24日
0
落馬貪官退贓像“割肉”，詢問能不能少交點(diǎn)
“就像割我身上的肉一般，會讓我痛不欲生?！?24日，中央紀(jì)委國家監(jiān)委網(wǎng)站發(fā)布了針對云南省文山州住房和城鄉(xiāng)建設(shè)局原黨組成員、副局長李慶明嚴(yán)重違紀(jì)違法案的剖析。信奉金錢至上的李慶明惜財(cái)…
2024年1月24日
0
中國gdp排行榜城市(中國gdp排行榜)
中國各省gdp排名 1、根據(jù)查詢國家統(tǒng)計(jì)局官網(wǎng)信息顯示，2023年各省排名，廣東：GDP為1243667億。江蘇：GDP為116362億。山東：GDP為83099億。浙江：GDP為…
2024年1月24日
0
SK-II大中華區(qū)季度銷售額暴跌34%，寶潔：日本核污水排海是主因
財(cái)聯(lián)社1月24日訊（編輯卞純）全球日用消費(fèi)品巨頭寶潔公司（ProcterGamble）周二表示，在截至12月底的第二財(cái)季，其高端護(hù)膚品牌SK-II在大中華區(qū)的銷售額下降了34%，…
2024年1月24日
0
呼和浩特白塔機(jī)場通報(bào)“保潔員占母嬰室吃飯”：涉事人已被辭退
呼和浩特白塔機(jī)場通報(bào)“保潔員占母嬰室吃飯”：涉事人已被辭退原標(biāo)題：呼和浩特白塔機(jī)場通報(bào)“保潔員占母嬰室吃飯”：涉事人已被辭退央視網(wǎng)消息：據(jù)@呼和浩特白塔國際機(jī)場消息，呼和浩…
2024年1月24日
0
退休職工舉報(bào)局長被判刑，被舉報(bào)人卻提級退休把人看懵了
文|龍之朱又見錯(cuò)抓錯(cuò)判上了熱搜。據(jù)媒體報(bào)道，從2016年3月起，安徽宿州市碭山縣農(nóng)機(jī)局退休職工李平實(shí)名向紀(jì)檢部門舉報(bào)局長王超經(jīng)濟(jì)問題，均石沉大海。 2017年7月，李平夫婦及親…
2024年1月24日
0
6寸蛋糕用5斤車?yán)遄拥昙业狼?
【#6寸蛋糕用5斤車?yán)遄拥昙业狼?：客服能力不足，多報(bào)了2斤車?yán)遄印?遇到商家虛假宣傳你會怎么辦# 近日，有網(wǎng)友發(fā)帖稱做六寸蛋糕需要5斤車?yán)遄右裏嶙h。 1月22日，涉事店家就“6寸…
2024年1月24日
0
格蘭芬多院徽簡筆畫(格蘭芬多院徽)
哈利波特的霍格沃茨學(xué)校分別是哪些學(xué)院? 1、《哈利波特》電影中的霍格沃茨學(xué)院，一共分為四個(gè)學(xué)院，分別是：格蘭芬多、赫奇帕奇、拉文克勞與斯萊特林。 2、霍格沃茨魔法學(xué)院共有格蘭芬多、…
2024年1月24日
0

聯(lián)系我們

聯(lián)系郵箱：admin#wlmqw.com
工作時(shí)間：周一至周五，10:30-18:30，節(jié)假日休息

<span id="f0rsn"><code id="f0rsn"></code></span><fieldset id="f0rsn"><li id="f0rsn"></li></fieldset>