法國AI公司Mistral推出超大模型Mixtral 8x22B,問鼎開源榜首

法國AI公司Mistral推出超大模型Mixtral 8x22B,問鼎開源榜首

人工智能領(lǐng)域,一場新的競賽正在激烈展開。昨日,被譽為“歐洲版OpenAI”的法國公司Mistral AI悄然發(fā)布了一款全新的MoE(專家混合)大模型——Mixtral 8x22B。這款模型的參數(shù)規(guī)模高達1760億,僅次于馬斯克的Grok-1,成為了市場上參數(shù)規(guī)模第二大的開源模型。

Mixtral 8x22B的發(fā)布引起了業(yè)界的廣泛關(guān)注。該模型由8個專家模型構(gòu)成,每個模型的參數(shù)規(guī)模達到了220億,模型文件大小約為262GB。在性能上,Mixtral 8x22B在多項測評中取得了令人矚目的成績,尤其是在MMLU(大規(guī)模多任務(wù)語言理解)測試中,該模型成功登頂開源模型榜首,同時在Hellaswag、TruthfulQA、GSM8K等多項測評中,成績超越了Llama 2 70B、GPT-3.5以及Claude 3 Sonnet等競爭對手。

值得一提的是,盡管Mixtral 8x22B的發(fā)布方式相對低調(diào),但其在開源社區(qū)中卻引起了巨大的反響。在放出磁力鏈接后不久,Mixtral 8x22B便迅速上架了開源社區(qū)Hugging Face,用戶可以進一步對其進行訓練和部署。AI搜索平臺Perplexity Labs和開源平臺Together AI也迅速提供了對該模型的支持。

在性能優(yōu)化方面,AI科學家賈揚清表示,通過合理的量化,Mixtral 8x22B可以在4個A100/H100顯卡上運行,實際上,只需要3張A100顯卡就足夠支持其運行。此外,蘋果機器學習研究員Awni Hannun也指出,Mixtral 8x22B模型在蘋果機器學習框架MLX上使用M2 Ultra芯片運行良好,并發(fā)布了MLX社區(qū)中的4位量化模型。

Mistral AI的這一重大突破不僅體現(xiàn)了法國在人工智能領(lǐng)域的強大實力,也進一步推動了全球AI技術(shù)的發(fā)展。隨著開源社區(qū)的快速發(fā)展,Mixtral 8x22B的發(fā)布無疑將為更多開發(fā)者和研究人員提供新的機遇和挑戰(zhàn)。

此外,Mistral AI的成就也反映了法國AI生態(tài)的蓬勃發(fā)展。近年來,法國在AI領(lǐng)域取得了顯著的進步,從計算機培訓學校的創(chuàng)辦到深度學習研究院的成立,再到創(chuàng)業(yè)園區(qū)的興起,法國已經(jīng)成為全球AI領(lǐng)域的重要力量。

與此同時,法國AI生態(tài)的崛起也吸引了全球科技巨頭的關(guān)注。谷歌DeepMind在巴黎開設(shè)實驗室,進一步證明了法國在AI領(lǐng)域的吸引力。而Mistral AI的成功,更是為法國AI生態(tài)的未來發(fā)展注入了強大的動力。

隨著人工智能技術(shù)的不斷發(fā)展,我們期待看到更多像Mistral AI這樣的公司能夠涌現(xiàn)出來,推動全球AI技術(shù)的進步,為人類社會的未來發(fā)展貢獻更多的智慧和力量。

原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請注明出處:http://leeannwhittemore.com/article/646396.html

AI的頭像AI認證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論