超越GPT-4 Claude 3超大杯成新王

AI ? 2024年3月28日 20:13:00 ? AI

Claude 3 Opus在Chatbot Arena的聊天機(jī)器人對(duì)戰(zhàn)排行榜中反超GPT-4，成為新冠軍，且Claude 3家族整體表現(xiàn)亮眼。Chatbot Arena榜單權(quán)威，基于真實(shí)人類(lèi)用戶體驗(yàn)打分。Claude 3因其勤奮和低成本受到好評(píng)，尤其Claude 3 Haiku能以低成本即時(shí)運(yùn)行并提供高智能客戶服務(wù)。相比之下，ChatGPT被指在過(guò)去一年中零增長(zhǎng)，面臨競(jìng)爭(zhēng)壓力，垂直化AI初創(chuàng)公司正滿足用戶需求。ChatGPT未來(lái)可能以平臺(tái)專(zhuān)屬模型為特色，成為新的增長(zhǎng)點(diǎn)。

太瘋狂了！Claude 3 Opus超越了GPT-4，成為新的國(guó)王！今天，Chatbot Arena更新了聊天機(jī)器人對(duì)戰(zhàn)的排行榜，在經(jīng)過(guò)了時(shí)間的洗禮和群眾的檢驗(yàn)之后，之前略遜于GPT-4的Claude 3竟然反超了！

而且不僅僅是Claude 3的超大杯Opus成功登頂，藐視眾生，Claude 3家族的整體表現(xiàn)都非常亮眼。

大杯Claude 3 Sonnet排到了第4，就連最小的Claude 3 HaiKu都達(dá)到了GPT-4水平！

那么相比于基準(zhǔn)測(cè)試跑分，這個(gè)榜單的權(quán)威性如何？

Chatbot Arena（聊天機(jī)器人競(jìng)技場(chǎng)），由伯克利團(tuán)隊(duì)開(kāi)發(fā)，每個(gè)模型在榜單上的得分，完全取決于真實(shí)人類(lèi)用戶的使用體驗(yàn)。

我們來(lái)看一下打分規(guī)則：

用戶同時(shí)向兩個(gè)匿名模型（比如ChatGPT、Claude、Llama）提出任何相同的問(wèn)題，然后根據(jù)回答投票給表現(xiàn)更好的模型；

如果一次回答不能確定，用戶可以繼續(xù)聊天，直到確定獲勝者；

如果在對(duì)話中透露了模型的身份，則不會(huì)計(jì)算投票。

Chatbot Arena平臺(tái)收集了超過(guò)40萬(wàn)人的投票，來(lái)計(jì)算出這個(gè)大模型的等級(jí)分排行榜，最終找出誰(shuí)是冠軍。

顯然，這回Claude 3贏麻了。

我們來(lái)看一下真實(shí)的戰(zhàn)況：

在所有非平局對(duì)戰(zhàn)中， A對(duì)B獲勝的比例：

模型之間的對(duì)戰(zhàn)次數(shù)（無(wú)平局）：

GPT-4終于被干掉了，對(duì)此，有網(wǎng)友開(kāi)始惡搞：

剛在當(dāng)?shù)爻锌吹絊am Altman，他一臉震驚地看著手機(jī)。幾秒鐘后，他真的倒下了，開(kāi)始劇烈顫抖。經(jīng)過(guò)2分鐘的搖晃和尖叫，一群人圍繞著他試圖幫助他。但令人驚訝的是，他在2分鐘后停止了顫抖和尖叫，站起來(lái)，拿起手機(jī)開(kāi)始撥打一個(gè)號(hào)碼。

“準(zhǔn)備釋放……”

咱也不知道Altman要放的是不是GPT-5。

網(wǎng)友表示，Claude確實(shí)要比GPT勤奮得多：

GPT-4-Turbo非常懶惰。在任何編碼任務(wù)中，它都會(huì)跳過(guò)部分代碼，并表示“你自己知道要放什么”，而Opus可以毫無(wú)遺漏地輸出整個(gè)代碼。

就連Claude-2也通過(guò)自己的勤奮和耐心感動(dòng)了這位網(wǎng)友。

更有比較務(wù)實(shí)的網(wǎng)友指出，Haiku的排名更為重要，因?yàn)樗堑谝粋€(gè)可以以極低成本即時(shí)運(yùn)行的LLM，并且具有足夠高的智能來(lái)提供實(shí)時(shí)客戶服務(wù)。

盲生你發(fā)現(xiàn)了華點(diǎn)！Claude 3 Haiku不僅與原始版本的GPT-4表現(xiàn)一樣好，關(guān)鍵是相當(dāng)便宜，在一些平臺(tái)你甚至可以免費(fèi)使用。

大家于是紛紛夸起了Claude 3 Haiku：

智能相當(dāng)于GPT-4，價(jià)格比GPT-3.5便宜，而且據(jù)說(shuō)模型可能只有20B大小。

有網(wǎng)友表示，OpenAI不行啦，現(xiàn)在Anthropic才是老大，一時(shí)間，平臺(tái)內(nèi)外充滿了快活的空氣。

ChatGPT 一年零增長(zhǎng)

回過(guò)頭來(lái)再看ChatGPT這邊，從最初的高光、王者，到現(xiàn)在不能說(shuō)泯然眾人吧，反正多少有點(diǎn)寒酸了。

最近，有關(guān)統(tǒng)計(jì)平臺(tái)曝出：ChatGPT在過(guò)去一年中居然零增長(zhǎng)！

最近一段時(shí)間，ChatGPT一直被指責(zé)懶惰、系統(tǒng)提示臃腫，而另一方面競(jìng)爭(zhēng)也愈演愈烈——Claude 3和Gemini Pro 1.5現(xiàn)在都提供了比GPT-4多8倍的上下文長(zhǎng)度和更好的recall能力。

對(duì)于幾乎每個(gè)ChatGPT用例，現(xiàn)在都有大量垂直化的AI初創(chuàng)公司，致力于滿足用戶的需求，而不是滿足于現(xiàn)有的ChatGPT界面和捆綁工具

它們有更好的UI選項(xiàng)（例如IDE和圖像/文檔編輯器）、更好的原生集成（例如用于cron重復(fù)操作）、更好的隱私/企業(yè)保護(hù)（例如用于醫(yī)療保健和金融），更細(xì)粒度的控制（GPT的默認(rèn)RAG是幼稚且不可配置的）。

以下是一些網(wǎng)友列舉了相關(guān)垂直領(lǐng)域的產(chǎn)品，以及公司的融資情況：

從某種意義上說(shuō)，OpenAI的B2B和B2C部分相互競(jìng)爭(zhēng)，這在某種程度上是良性競(jìng)爭(zhēng)——OpenAI可以使用來(lái)自ChatGPT的RLHF數(shù)據(jù)進(jìn)行訓(xùn)練。

而新的GPT商店可以看作是，OpenAI為了抓住這些垂直化需求的嘗試。

——與其離開(kāi)平臺(tái)，到處支付20美元/月，為什么不留在ChatGPT內(nèi)部而只需要支付一次，讓OpenAI將理論上的收入分配給GPT創(chuàng)作者？

對(duì)此，大部分創(chuàng)作者也很明智，一般只向ChatGPT發(fā)布精簡(jiǎn)版的應(yīng)用，作為自己主要平臺(tái)的一個(gè)渠道。

在游戲機(jī)業(yè)務(wù)中，眾所周知，購(gòu)買(mǎi)決策往往是由平臺(tái)獨(dú)占游戲驅(qū)動(dòng)的。從某種意義上說(shuō)，ChatGPT的未來(lái)會(huì)以平臺(tái)專(zhuān)屬模型為特色。

所以，當(dāng)Sora甚至是GPT-5公開(kāi)發(fā)布時(shí)，一定會(huì)率先登陸自家的平臺(tái)，也許那將是下一輪ChatGPT的增長(zhǎng)點(diǎn)。

本文轉(zhuǎn)載自：cnBeta，不代表科技訊之立場(chǎng)。原文鏈接：https://www.cnbeta.com.tw/articles/tech/1425246.htm

AI認(rèn)證作者

0 0

AI

英偉達(dá)開(kāi)源Nemotron-70B模型，性能超越GPT-4o和Claude 3.5

近日，英偉達(dá)悄然開(kāi)源了其最新的超強(qiáng)大模型——Nemotron-70B。一經(jīng)發(fā)布，該模型便迅速在AI社區(qū)引發(fā)轟動(dòng)，其性能在多個(gè)基準(zhǔn)測(cè)試中超越了包括GPT-4、GPT-4 Turbo以…

AI
4天前
新聞

阿里通義開(kāi)源模型Qwen2.5進(jìn)入大模型盲測(cè)全球前十

基準(zhǔn)測(cè)試平臺(tái)Chatbot Arena發(fā)布了最新的大模型盲測(cè)排名。10天前發(fā)布的阿里通義千問(wèn)開(kāi)源模型Qwen2.5再次闖入全球十強(qiáng)，其Qwen2.5-72B-Instruct大語(yǔ)言模型在榜單中位列第十，是前十名中唯一的中國(guó)模型。此外，通義千問(wèn)的視覺(jué)語(yǔ)言模型Qwen2-VL-72B-Instruct排名第九，是得分最高的開(kāi)源大模型。

潮玩君
2024年9月30日
AI

法國(guó)AI初創(chuàng)Mistral發(fā)布Pixtral 12B：多模態(tài)AI大模型亮相

法國(guó)人工智能（AI）初創(chuàng)公司Mistral于9月11日宣布推出其首款多模態(tài)AI大模型——Pixtral 12B，該模型以其強(qiáng)大的圖像與文本處理能力，在AI領(lǐng)域引起了廣泛關(guān)注。Pix…

AI
2024年9月12日
AI

OpenAI 推出 SearchGPT 搜索引擎，挑戰(zhàn)谷歌地位

據(jù)報(bào)道，近日，OpenAI正式宣布，其基于 GPT-4 系列 AI 模型的新搜索引擎 SearchGPT 已進(jìn)入測(cè)試階段，并計(jì)劃在未來(lái)將其功能整合至廣受歡迎的 ChatGPT 服…

AI
2024年7月26日
AI

ChatGPT首次通過(guò)圖靈測(cè)試，AI模仿人類(lèi)交流能力再突破

近日，加州大學(xué)圣地亞哥分校的科學(xué)家在人工智能（AI）領(lǐng)域取得了突破性的進(jìn)展。在一項(xiàng)旨在評(píng)估AI模仿人類(lèi)交流能力的實(shí)驗(yàn)中，OpenAI的GPT-4模型在54%的時(shí)間里成功被誤認(rèn)為是人…

AI
2024年6月18日
AI

Open AI宣布訓(xùn)練新一代AI模型，目標(biāo)超越GPT-4

近日，Open AI宣布已啟動(dòng)新一代旗艦人工智能模型的訓(xùn)練工作，旨在超越當(dāng)前備受矚目的GPT-4大模型，進(jìn)一步提升AI技術(shù)的能力邊界。該公司表示，新模型將作為聊天機(jī)器人、智能助手、…

AI
2024年5月29日
新聞

對(duì)于微軟Build 2024的期待：新Surface硬件與AI探險(xiǎn)家即將亮相

隨著人工智能技術(shù)的飛速發(fā)展，各大科技公司紛紛加碼投入。在谷歌的I/O開(kāi)發(fā)者大會(huì)上，AI技術(shù)大放異彩，OpenAI的GPT-4更是引發(fā)廣泛討論?，F(xiàn)在，微軟即將于明日在西雅圖舉行的Bu…

聆聽(tīng)
2024年5月20日
AI

Gemini 1.5 Pro vs GPT-4：AI領(lǐng)域的雙雄對(duì)決

在人工智能（AI）的戰(zhàn)場(chǎng)上，谷歌和OpenAI兩大巨頭始終在競(jìng)爭(zhēng)的前沿。近期，谷歌發(fā)布了其最新的大語(yǔ)言模型Gemini 1.5 Pro，而OpenAI的GPT-4也早已在市場(chǎng)上占據(jù)…

AI
2024年5月16日
AI

Anthropic 在歐洲推出多語(yǔ)言生成式 AI 助手 Claude

人工智能領(lǐng)域的創(chuàng)新者 Anthropic 公司近日宣布，其先進(jìn)的生成式 AI 助手 Claude 將于當(dāng)?shù)貢r(shí)間周二正式在歐洲上線。這款備受期待的產(chǎn)品已經(jīng)在歐洲的金融和酒店等行業(yè)展現(xiàn)…

AI
2024年5月15日
AI

OpenAI聲稱(chēng)GPT-4o模型可以像人一樣讓交流更自然

在人工智能領(lǐng)域，OpenAI再次引領(lǐng)了創(chuàng)新潮流。該公司近日宣布推出全新的人工智能模型GPT-4o，該模型以其多模式功能和增強(qiáng)的交互能力，被譽(yù)為更接近“更自然的人機(jī)交互”的里程碑式產(chǎn)…

AI
2024年5月14日
AI

OpenAI發(fā)布會(huì)預(yù)告：ChatGPT與GPT-4升級(jí)，新語(yǔ)音助手或亮相

在全球科技界翹首以盼之際，OpenAI宣布將于北京時(shí)間5月13日凌晨1點(diǎn)舉行線上發(fā)布會(huì)，展示ChatGPT和GPT-4的最新升級(jí)。此前關(guān)于SearchGPT搜索引擎的猜測(cè)和熱議，似…

AI
2024年5月13日
AI

阿里云發(fā)布通義千問(wèn)2.5大模型，能力全面升級(jí)，趕超GPT-4

昨日，在阿里云AI智領(lǐng)者峰會(huì)-北京站活動(dòng)中，阿里云正式發(fā)布了通義千問(wèn)2.5大模型，并宣稱(chēng)其在多項(xiàng)能力上已全面趕超GPT-4，尤其在中文語(yǔ)境下的表現(xiàn)尤為突出。據(jù)阿里云官方介紹，通義…

科技新聞
2024年5月10日
AI

GPT-4 Turbo vs GPT-4：誰(shuí)是AI寫(xiě)作領(lǐng)域的新星？

在AI技術(shù)的浪潮中，OpenAI的GPT系列模型一直站在風(fēng)口浪尖。繼GPT-4之后，短短數(shù)月內(nèi)，GPT-4 Turbo的推出再次引發(fā)了業(yè)界的廣泛關(guān)注。那么，GPT-4 Turbo與…

AI
2024年5月5日
AI

OpenAI奧爾特曼演講揭秘：GPT-5性能將遠(yuǎn)超GPT-4，迭代部署至關(guān)重要

近日，OpenAI聯(lián)合創(chuàng)始人兼首席執(zhí)行官薩姆·奧爾特曼（Sam Altman）在斯坦福大學(xué)發(fā)表了一場(chǎng)備受矚目的演講，重點(diǎn)談及了通用人工智能（AGI）的發(fā)展以及OpenAI的迭代節(jié)奏…

AI
2024年4月29日
AI

GPT-4展露黑客天賦：自主利用真實(shí)世界安全漏洞

近日，在人工智能領(lǐng)域掀起軒然大波的GPT-4大型語(yǔ)言模型再次刷新了人們的認(rèn)知。伊利諾伊大學(xué)厄巴納-香檳分校的四位計(jì)算機(jī)科學(xué)家最新研究發(fā)現(xiàn)，GPT-4不僅能夠理解人類(lèi)語(yǔ)言，還能通過(guò)閱…

AI
2024年4月22日
AI

GPT-4眼科評(píng)估能力驚艷，但專(zhuān)家警告需審慎應(yīng)用

劍橋大學(xué)臨床醫(yī)學(xué)院的最新研究發(fā)現(xiàn)，OpenAI的GPT-4模型在眼科評(píng)估中的表現(xiàn)幾乎可與該領(lǐng)域的專(zhuān)家相媲美。這一突破性成果在金融時(shí)報(bào)首次報(bào)道后，引起了醫(yī)療和科技界的廣泛關(guān)注。在這…

若安丶
2024年4月21日
AI

AI模型訓(xùn)練成本飆升：GPT-4耗資7800萬(wàn)美元，Gemini Ultra1.91億美元

隨著人工智能技術(shù)的飛速發(fā)展，先進(jìn)AI模型的訓(xùn)練成本也在急劇攀升。根據(jù)AI指數(shù)的最新估計(jì)，OpenAI的GPT-4模型和谷歌的Gemini Ultra模型在訓(xùn)練過(guò)程中分別耗資約780…

科技新聞
2024年4月17日
新聞

OpenAI在日本東京設(shè)立亞洲首個(gè)辦事處，并推出優(yōu)化版GPT-4模型

全球領(lǐng)先的人工智能研究機(jī)構(gòu)OpenAI近日正式宣布，在亞洲的首個(gè)辦事處正式落戶日本東京，標(biāo)志著公司業(yè)務(wù)的進(jìn)一步擴(kuò)展。OpenAI表示，此次設(shè)立辦事處旨在與當(dāng)?shù)氐恼?、企業(yè)以及研究機(jī)…

科技探索者
2024年4月16日
AI

Anthropic最新研究：Claude 3 Opus說(shuō)服力比肩人類(lèi)

近日，人工智能領(lǐng)域的領(lǐng)軍企業(yè)Anthropic發(fā)布了一項(xiàng)令人矚目的研究成果，顯示其最新語(yǔ)言模型Claude 3 Opus的說(shuō)服力已與人類(lèi)水平相當(dāng)。這一發(fā)現(xiàn)標(biāo)志著在評(píng)估語(yǔ)言模型說(shuō)服力…

AI
2024年4月15日
AI

GPT-4 API全面開(kāi)放，引領(lǐng)生成式AI應(yīng)用新篇章

在人工智能領(lǐng)域掀起新一波熱潮的GPT-4，近日宣布全面開(kāi)放其API接口，標(biāo)志著生成式AI應(yīng)用進(jìn)入了一個(gè)全新的發(fā)展階段。GPT-4以其卓越的創(chuàng)造性和強(qiáng)大的上下文處理能力，為各行各業(yè)的…

AI
2024年4月11日

發(fā)表回復(fù)

登錄后才能評(píng)論

超越GPT-4 Claude 3超大杯成新王

相關(guān)推薦

發(fā)表回復(fù)