超越GPT-4 Claude 3超大杯成新王

Claude 3 Opus在Chatbot Arena的聊天機(jī)器人對(duì)戰(zhàn)排行榜中反超GPT-4,成為新冠軍,且Claude 3家族整體表現(xiàn)亮眼。Chatbot Arena榜單權(quán)威,基于真實(shí)人類(lèi)用戶體驗(yàn)打分。Claude 3因其勤奮和低成本受到好評(píng),尤其Claude 3 Haiku能以低成本即時(shí)運(yùn)行并提供高智能客戶服務(wù)。相比之下,ChatGPT被指在過(guò)去一年中零增長(zhǎng),面臨競(jìng)爭(zhēng)壓力,垂直化AI初創(chuàng)公司正滿足用戶需求。ChatGPT未來(lái)可能以平臺(tái)專(zhuān)屬模型為特色,成為新的增長(zhǎng)點(diǎn)。

超越GPT-4 Claude 3超大杯成新王

太瘋狂了!Claude 3 Opus超越了GPT-4,成為新的國(guó)王!今天,Chatbot Arena更新了聊天機(jī)器人對(duì)戰(zhàn)的排行榜,在經(jīng)過(guò)了時(shí)間的洗禮和群眾的檢驗(yàn)之后,之前略遜于GPT-4的Claude 3竟然反超了!

而且不僅僅是Claude 3的超大杯Opus成功登頂,藐視眾生,Claude 3家族的整體表現(xiàn)都非常亮眼。

大杯Claude 3 Sonnet排到了第4,就連最小的Claude 3 HaiKu都達(dá)到了GPT-4水平!

那么相比于基準(zhǔn)測(cè)試跑分,這個(gè)榜單的權(quán)威性如何?

Chatbot Arena(聊天機(jī)器人競(jìng)技場(chǎng)),由伯克利團(tuán)隊(duì)開(kāi)發(fā),每個(gè)模型在榜單上的得分,完全取決于真實(shí)人類(lèi)用戶的使用體驗(yàn)。

我們來(lái)看一下打分規(guī)則:

用戶同時(shí)向兩個(gè)匿名模型(比如ChatGPT、Claude、Llama)提出任何相同的問(wèn)題,然后根據(jù)回答投票給表現(xiàn)更好的模型;

如果一次回答不能確定,用戶可以繼續(xù)聊天,直到確定獲勝者;

如果在對(duì)話中透露了模型的身份,則不會(huì)計(jì)算投票。

Chatbot Arena平臺(tái)收集了超過(guò)40萬(wàn)人的投票,來(lái)計(jì)算出這個(gè)大模型的等級(jí)分排行榜,最終找出誰(shuí)是冠軍。

顯然,這回Claude 3贏麻了。

我們來(lái)看一下真實(shí)的戰(zhàn)況:

在所有非平局對(duì)戰(zhàn)中, A對(duì)B獲勝的比例:

模型之間的對(duì)戰(zhàn)次數(shù)(無(wú)平局):

GPT-4終于被干掉了,對(duì)此,有網(wǎng)友開(kāi)始惡搞:

剛在當(dāng)?shù)爻锌吹絊am Altman,他一臉震驚地看著手機(jī)。幾秒鐘后,他真的倒下了,開(kāi)始劇烈顫抖。經(jīng)過(guò)2分鐘的搖晃和尖叫,一群人圍繞著他試圖幫助他。但令人驚訝的是,他在2分鐘后停止了顫抖和尖叫,站起來(lái),拿起手機(jī)開(kāi)始撥打一個(gè)號(hào)碼。

“準(zhǔn)備釋放……”

咱也不知道Altman要放的是不是GPT-5。

網(wǎng)友表示,Claude確實(shí)要比GPT勤奮得多:

GPT-4-Turbo非常懶惰。在任何編碼任務(wù)中,它都會(huì)跳過(guò)部分代碼,并表示“你自己知道要放什么”,而Opus可以毫無(wú)遺漏地輸出整個(gè)代碼。

就連Claude-2也通過(guò)自己的勤奮和耐心感動(dòng)了這位網(wǎng)友。

更有比較務(wù)實(shí)的網(wǎng)友指出,Haiku的排名更為重要,因?yàn)樗堑谝粋€(gè)可以以極低成本即時(shí)運(yùn)行的LLM,并且具有足夠高的智能來(lái)提供實(shí)時(shí)客戶服務(wù)。

盲生你發(fā)現(xiàn)了華點(diǎn)!Claude 3 Haiku不僅與原始版本的GPT-4表現(xiàn)一樣好,關(guān)鍵是相當(dāng)便宜,在一些平臺(tái)你甚至可以免費(fèi)使用。

大家于是紛紛夸起了Claude 3 Haiku:

智能相當(dāng)于GPT-4,價(jià)格比GPT-3.5便宜,而且據(jù)說(shuō)模型可能只有20B大小。

有網(wǎng)友表示,OpenAI不行啦,現(xiàn)在Anthropic才是老大,一時(shí)間,平臺(tái)內(nèi)外充滿了快活的空氣。

ChatGPT 一年零增長(zhǎng)

回過(guò)頭來(lái)再看ChatGPT這邊,從最初的高光、王者,到現(xiàn)在不能說(shuō)泯然眾人吧,反正多少有點(diǎn)寒酸了。

最近,有關(guān)統(tǒng)計(jì)平臺(tái)曝出:ChatGPT在過(guò)去一年中居然零增長(zhǎng)!

最近一段時(shí)間,ChatGPT一直被指責(zé)懶惰、系統(tǒng)提示臃腫,而另一方面競(jìng)爭(zhēng)也愈演愈烈——Claude 3和Gemini Pro 1.5現(xiàn)在都提供了比GPT-4多8倍的上下文長(zhǎng)度和更好的recall能力。

對(duì)于幾乎每個(gè)ChatGPT用例,現(xiàn)在都有大量垂直化的AI初創(chuàng)公司,致力于滿足用戶的需求,而不是滿足于現(xiàn)有的ChatGPT界面和捆綁工具

它們有更好的UI選項(xiàng)(例如IDE和圖像/文檔編輯器)、更好的原生集成(例如用于cron重復(fù)操作)、更好的隱私/企業(yè)保護(hù)(例如用于醫(yī)療保健和金融),更細(xì)粒度的控制(GPT的默認(rèn)RAG是幼稚且不可配置的)。

以下是一些網(wǎng)友列舉了相關(guān)垂直領(lǐng)域的產(chǎn)品,以及公司的融資情況:

從某種意義上說(shuō),OpenAI的B2B和B2C部分相互競(jìng)爭(zhēng),這在某種程度上是良性競(jìng)爭(zhēng)——OpenAI可以使用來(lái)自ChatGPT的RLHF數(shù)據(jù)進(jìn)行訓(xùn)練。

而新的GPT商店可以看作是,OpenAI為了抓住這些垂直化需求的嘗試。

——與其離開(kāi)平臺(tái),到處支付20美元/月,為什么不留在ChatGPT內(nèi)部而只需要支付一次,讓OpenAI將理論上的收入分配給GPT創(chuàng)作者?

對(duì)此,大部分創(chuàng)作者也很明智,一般只向ChatGPT發(fā)布精簡(jiǎn)版的應(yīng)用,作為自己主要平臺(tái)的一個(gè)渠道。

在游戲機(jī)業(yè)務(wù)中,眾所周知,購(gòu)買(mǎi)決策往往是由平臺(tái)獨(dú)占游戲驅(qū)動(dòng)的。從某種意義上說(shuō),ChatGPT的未來(lái)會(huì)以平臺(tái)專(zhuān)屬模型為特色。

所以,當(dāng)Sora甚至是GPT-5公開(kāi)發(fā)布時(shí),一定會(huì)率先登陸自家的平臺(tái),也許那將是下一輪ChatGPT的增長(zhǎng)點(diǎn)。

本文轉(zhuǎn)載自:cnBeta,不代表科技訊之立場(chǎng)。原文鏈接:https://www.cnbeta.com.tw/articles/tech/1425246.htm

AI的頭像AI認(rèn)證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論