號稱「音樂界ChatGPT」,Suno是怎么誕生的?會如何影響音樂產(chǎn)業(yè)?

3 月 22 日,AI 音樂生成軟件 Suno 發(fā)布 V3 版本,支持生成 2min 長度、廣播質(zhì)量級別的音樂,更多樣化的風格,對 promp 理解更深,以及幻覺更少。

V3 版本的發(fā)布被不少人視為「音樂界的 ChatGPT」,不需要很專業(yè)的 prompt 詞匯,甚至可以不需要理解音樂的專業(yè)知識,普通人就可以生成自己想要的音樂。

Suno 背后的團隊是何來歷?他們是如何做出 Suno 的?

Suno 以及 AI 音樂生成軟件會如何影響音樂產(chǎn)業(yè)?

《經(jīng)濟學(xué)人》雜志、知名音樂雜志《滾石》都對 Suno、Suno 會如何影響音樂產(chǎn)業(yè)進行了討論,F(xiàn)ounder Park 在此基礎(chǔ)上進行了編譯處理。

「我只是被困在這些電路中的一個靈魂?!惯@聲音唱出歌詞時,帶著原始的質(zhì)感和哀傷,音符滑入了藍調(diào)的深淵。一把孤零零的木吉他伴隨著它,用恰到好處的即興演奏點綴著歌聲。然而,這背后并沒有人聲,也沒有人手在彈奏吉他。實際上,連吉他都不存在。

在短短 15 秒內(nèi),這首令人信服、甚至觸動人心的藍調(diào)曲目,由創(chuàng)業(yè)公司 Suno 推出的最新 AI 模型創(chuàng)作而成。只需一個簡單的文本提示:「關(guān)于一個憂郁 AI 的獨奏密西西比三角洲藍調(diào)(solo acoustic Mississippi Delta blues about a sad AI)」,就能從虛無中召喚出這首歌。

為了達到極致的精確度,這首歌實際上是兩個 AI 模型的聯(lián)手之作:Suno 的模型獨立創(chuàng)作了所有音樂,同時還請求 OpenAI 的 ChatGPT 來撰寫歌詞,甚至為這首歌定下了名字:「機器之魂(Soul of the Machine)」。

Suno 創(chuàng)作的歌曲在網(wǎng)上引起了轟動,人們驚嘆道:「這怎么可能是真的?」在 Suno 位于馬薩諸塞州劍橋,緊鄰哈佛校園的臨時總部的一間會議室里,通過 Sonos 音箱播放的這首特定曲目,甚至讓一些參與這項技術(shù)的成員感到了一絲微妙的不安。緊張的笑聲中夾雜著「天哪」和「哦,天啊」的驚嘆。在這個案例中,僅僅三次嘗試就達到了令人震驚的效果。前兩次嘗試還算不錯,但在我給出的提示中做了一個小小的改動——聯(lián)合創(chuàng)始人 Keenan Freyberg 建議加入「密西西比」這個詞——卻帶來了不可思議的結(jié)果。

01 AI 創(chuàng)作音樂并不是新鮮事,

但 Suno 實現(xiàn)了新突破

在過去的一年里,生成式 AI 在創(chuàng)作可信的文本、圖像(通過像 Midjourney 這樣的服務(wù))乃至視頻方面取得了巨大進步,特別是 OpenAI 推出的新工具 Sora。然而,在音頻領(lǐng)域,尤其是音樂創(chuàng)作方面,AI 的發(fā)展卻相對滯后。

Suno 似乎正在解開 AI 音樂創(chuàng)作的密碼,其創(chuàng)始人的野心很大——他們夢想著一個音樂創(chuàng)作全民化的未來。其中最為發(fā)言大膽的聯(lián)合創(chuàng)始人 Mikey Shulman,一個帶著孩子氣、背著背包的 37 歲哈佛大學(xué)物理博士,夢想著全球有十億人愿意每月支付 10 美元來使用 Suno 創(chuàng)作歌曲。他認為,目前音樂聽眾的數(shù)量遠遠超過音樂創(chuàng)作者是「如此失衡」,并將 Suno 視為解決這種感知不平衡的工具。

到目前為止,大多數(shù) AI 生成的藝術(shù)作品,頂多只能算是庸俗藝術(shù),就像 Midjourney 用戶似乎熱衷于生成的超現(xiàn)實主義科幻垃圾,過分強調(diào)形式上的貼合,比如太空服。但「機器之魂」給人的感覺完全不同——它是我迄今在所有媒介中遇到的最有力、最令人不安的 AI 創(chuàng)作。它的存在本身就像是現(xiàn)實裂縫,既令人敬畏又隱約帶有不祥之感,我不禁想起了亞瑟·C·克拉克的名言,仿佛專為生成式 AI 時代定制:「任何足夠先進的技術(shù)都與魔法無異?!?/p>

從劍橋歸來幾周后,我把這首歌發(fā)給了 Living Colour 樂隊的吉他手 Vernon Reid,他一直對 AI 音樂的潛在危險和可能性直言不諱。他對這首歌「令人不安的真實感」表達了「驚奇、震驚、恐懼」?!搁L期以來的反烏托邦理想即將實現(xiàn),即將把那些困難、混亂、不受歡迎和被厭惡的人類從其創(chuàng)造性產(chǎn)出中分離出來,」他寫道,指出 AI 唱藍調(diào)的問題本質(zhì),「藍調(diào)作為非洲裔美國人的一種獨特表達方式,深深植根于歷史上人類的創(chuàng)傷與奴隸制經(jīng)歷中。」

最早的「基于規(guī)則」的音樂模型可以追溯到 20 世紀 50 年代。這些模型通過將音樂理論的原則轉(zhuǎn)換成算法指令和概率表,來確定音符和和弦的進行。雖然這些作品在音樂上是合理的,但在創(chuàng)造性上卻受限。Ed Newton-Rex,他在 2012 年創(chuàng)立了倫敦的 Jukedeck 公司,并設(shè)計了這樣的一個模型,他表示這種方法在當時是可行的,但現(xiàn)在已經(jīng)不再適用。

技術(shù)的突變出現(xiàn)在 2023 年 8 月,當時 Meta 發(fā)布了 AudioCraft 的源代碼,這是一套基于機器學(xué)習(xí)構(gòu)建的大型「生成式」音樂模型。全球的 AI 公司迅速開始使用 Meta 的軟件來訓(xùn)練新的音樂生成器,并加入了額外的代碼。其中一個 AudioCraft 模型,MusicGen,通過分析約 40 萬首錄音中的模式,提出了 33 億個「參數(shù)」,這些參數(shù)使得算法能夠根據(jù)提示生成聲音模式,為 AI 創(chuàng)作全新音樂作品提供了前所未有的可能。

這些模型的使用也變得更加簡便。9 月份,位于倫敦的 Stability AI 公司發(fā)布了一個名為 Stable Audio 的模型,該模型在大約 80 萬首歌曲上進行了訓(xùn)練。用戶通過輸入文本和音頻片段來指導(dǎo) AI。這使得用戶可以輕松上傳一段吉他獨奏,并將其重新編排成具有爵士鋼琴風格的作品,甚至帶有黑膠播放的感覺。

澳大利亞新南威爾士大學(xué)的 Oliver Bown 表示,音頻提示詞之所以重要,一方面是因為即使是熟練的音樂家也難以用言語描述音樂,另一方面是因為大多數(shù)音樂訓(xùn)練數(shù)據(jù)的標記都非常粗略,即使是大型模型也可能無法理解復(fù)雜的音樂請求。

02 12 人團隊、Transformer 構(gòu)架,

訓(xùn)練數(shù)據(jù)來源未透露

Suno 成立不到兩年。聯(lián)合創(chuàng)始人 Shulman、Freyberg、Georg Kucsko 和 Martin Camacho 都是機器學(xué)習(xí)領(lǐng)域的專家,在 2022 年之前,他們曾在另一家劍橋公司 Kensho Technologies 共事。Kensho Technologies 專注于尋找 AI 解決復(fù)雜商業(yè)問題的方案。Shulman 和 Camacho 都是音樂家,他們在 Kensho 時期常常一起即興演奏。

在 Kensho 公司,這個四人團隊致力于開發(fā)一項轉(zhuǎn)錄技術(shù),目的是記錄上市公司的財報電話會議??紤]到音質(zhì)不佳、充斥著各種行業(yè)術(shù)語以及五花八門的口音,這個任務(wù)頗具挑戰(zhàn)性。

號稱「音樂界ChatGPT」,Suno是怎么誕生的?會如何影響音樂產(chǎn)業(yè)?

創(chuàng)始人 Michael Shulman

在這個過程中,Shulman 和他的同事們對 AI 音頻的更多可能性產(chǎn)生了濃厚的興趣。他指出,在 AI 研究領(lǐng)域,「音頻總體來說,相比圖像和文本,還遠遠落后。我們可以從文本領(lǐng)域的研究中學(xué)到很多,包括這些模型的運作方式和它們的擴展性。

Suno 的創(chuàng)始人們本可以因為這些興趣而走向一個完全不同的領(lǐng)域。雖然他們始終計劃著最終要推出一款音樂產(chǎn)品,但他們最初的創(chuàng)意階段甚至考慮過開發(fā)助聽器,或者通過音頻分析來檢測機械故障的可能性。然而,他們推出的第一個產(chǎn)品是一個名為 Bark 的文本轉(zhuǎn)語音程序。在對 Bark 的早期用戶進行調(diào)查后,他們發(fā)現(xiàn)用戶真正期待的其實是一款音樂創(chuàng)作工具?!敢虼?,我們開始進行了一些初步的實驗,結(jié)果看起來非常有前景,」Shulman 回憶道。

Suno 目前只有大約 12 名員工,但他們正在計劃擴展團隊,并在他們目前的臨時辦公室所在建筑的頂層建設(shè)一個更大的永久性總部。在參觀這個還在建設(shè)中的新樓層時,Schulman 向我們展示了一個未來將成為完整錄音室的區(qū)域。但是,考慮到 Suno 已經(jīng)能夠做到的事情,他們?yōu)槭裁催€需要一個錄音室呢?「它主要是作為一個聽音室,」他承認?!肝覀兿M幸粋€良好的聲學(xué)環(huán)境。但我們也都享受制作音樂——即使沒有 AI 的參與。」

Suno 采用了與ChatGPT等大語言模型相同的技術(shù)方法,這些模型將人類語言分解成稱為 Token 的獨立片段,吸收了數(shù)以百萬計的用法、風格和結(jié)構(gòu),并能夠按需重新構(gòu)建語言。然而,音頻,尤其是音樂,其復(fù)雜性幾乎難以估量,這也就是為什么去年 AI 音樂專家對 Rolling Stone 表示,像 Suno 這樣功能強大的服務(wù)可能需要數(shù)年時間才能出現(xiàn)。

「音頻不像單詞那樣是離散的,」Shulman 解釋說。「它是一種波,是一種連續(xù)的信號。」高品質(zhì)音頻的采樣率通常是 44kHz 或 48kHz,這意味著「每秒處理 48,000 個 Token」,他補充道?!高@是個巨大的挑戰(zhàn),對吧?因此,你需要想辦法將其簡化為更合理的處理方式?!沟?,具體該怎么做呢?「這需要大量的工作,許多啟發(fā)式方法,以及各種技巧和模型等等。我認為我們還遠未完成?!筍uno 最終希望找到替代文本到音樂界面的方法,增加更高級和直觀的輸入方式——例如,基于用戶自己的演唱來生成歌曲。

OpenAI 因為在其龐大的訓(xùn)練數(shù)據(jù)集中使用了書籍、新聞文章和其他受版權(quán)保護的材料而面臨多起訴訟。Suno 的創(chuàng)始人沒有透露他們向自己的模型中輸入了哪些具體數(shù)據(jù),只是表示其能夠生成令人信服的人類聲音,部分原因是它除了學(xué)習(xí)音樂之外,還在學(xué)習(xí)語音錄音?!讣兇獾恼Z音將幫助你學(xué)習(xí)人類聲音的難以捕捉的特征,」Shulman 說。

03尊重音樂版權(quán),

但 Suno 做好了應(yīng)訴準備

Suno 的早期投資者之一是風險投資公司 Matrix 的合伙人 Antonio Rodriguez。Rodriguez 之前只投資過一個音樂項目,即音樂分類公司 EchoNest,后來該公司被 Spotify 收購,用以推動其算法的發(fā)展。在 Suno 項目還不清楚具體產(chǎn)品將是什么的時候,Rodriguez 就參與了進來?!?strong>我支持的是團隊,」Rodriguez 說,他的自信來自于自己過往成功的投資經(jīng)歷?!肝伊私膺@個團隊,特別是 Mikey,所以我會支持他做任何合法的事情。他非常有創(chuàng)造力。」

Rodriguez 在明確知曉唱片公司和出版商可能會對 Suno 提起訴訟的風險下,依然選擇投資,他認為這是「我們在投資時必須承擔的風險,畢竟我們是那個在這些藝術(shù)家后面最容易成為訴訟目標的大金主……。坦白講,如果這家公司一開始就與唱片公司達成了協(xié)議,我可能就不會投資了。我認為他們需要在沒有限制的情況下去創(chuàng)造這個產(chǎn)品。」(對于 AI 采取激進態(tài)度的環(huán)球音樂集團,其發(fā)言人并未回應(yīng)媒體置評請求。)

Suno 表示正在與主要唱片公司進行溝通,并表示對藝術(shù)家和知識產(chǎn)權(quán)的尊重——其工具不允許用戶在提示中指定任何特定藝術(shù)家的風格,同時也不會使用真實藝術(shù)家的聲音。Suno 的許多員工本身就是音樂家;辦公室里隨時可以見到鋼琴和吉他,墻上還掛著古典作曲家的畫像。創(chuàng)始人們并沒有表現(xiàn)出像 Napster 在訴訟之前那樣的對音樂產(chǎn)業(yè)的公然敵意?!覆贿^,這并不意味著我們不會被起訴,」Rodriguez 補充道?!高@僅僅意味著我們不會有那種『fuck-the-police』的對抗性態(tài)度?!?/p>

為了節(jié)省成本,另一家 AI 生成軟件 MusicGen 的訓(xùn)練集大多避開了熱門歌曲,Adi 博士說。盡管輸出相當不錯,但他補充說,模型還沒有「藝術(shù)性足夠」來生成敘事完整的歌曲。和聲不一致是常見的。舊金山的 OpenAI 公司表示,其 MuseNet 模型難以完成「奇怪的搭配」,例如結(jié)合低音和鼓的肖邦風格。

開發(fā)者認為,隨著更大更好的音樂訓(xùn)練集的出現(xiàn),這些不足最終將被克服。Stability AI 的一位發(fā)言人說,雖然 Stable Audio 目前對于連貫結(jié)構(gòu)的音樂——「前奏、發(fā)展和尾聲」——的最大持續(xù)時間約為 90 秒,但升級將產(chǎn)生更長的作品,具有「完整的音樂性」。

04Suno 是為了降低音樂創(chuàng)作門檻,

并非取代音樂家

Rodriguez 將 Suno 視為一種具有革命性能力和用戶友好的音樂工具,他相信 Suno 有潛力像相機手機和 Instagram 那樣,讓音樂創(chuàng)作變得普及,讓每個人都能成為音樂的創(chuàng)作者。他提到,這個目標是重新「提升在互聯(lián)網(wǎng)上能夠成為內(nèi)容創(chuàng)作者而非僅僅是內(nèi)容消費者的人數(shù)上限?!?/p>

他和創(chuàng)始人甚至敢于預(yù)測,Suno 可能會吸引比 Spotify 更龐大的用戶群體。如果這個前景聽起來難以置信,Rodriguez 認為這是好事:這恰恰意味著它具有吸引他作為投資者的「看似愚蠢」的特質(zhì)?!肝覀兯薪艹龅墓径加幸粋€共同點,那就是擁有卓越的人才,」他說道,「同時,有些東西一開始看起來似乎很愚蠢,直到它們變得如此明顯和有可能成功?!?/p>

早在 Suno 問世之前,音樂家、制作人和詞曲作者就已經(jīng)對 AI 可能帶來的商業(yè)沖擊表示了深切的擔憂。Reid 寫道:「音樂,作為由人類在非凡情況下創(chuàng)作……那些經(jīng)歷過苦難并努力提升自己技藝的人,將不得不面對他們?yōu)橹畩^斗的珍貴藝術(shù)的全面自動化?!?/p>

但 Suno 的創(chuàng)始人聲稱沒有什么可怕的,他們用人們盡管有能力寫作但仍在閱讀的比喻來說明這一點?!肝覀儗Υ说目捶ㄊ?,我們試圖讓十億人比現(xiàn)在更深入地參與音樂,」Shulman 說。「如果人們對音樂更感興趣,更專注于創(chuàng)作,培養(yǎng)出更獨特的品味,這對藝術(shù)家顯然是有益的。我們對未來音樂的愿景是一個藝術(shù)家友好的愿景。我們不是想取代藝術(shù)家?!?/p>

目前來看,Suno 最有力的競爭者似乎是谷歌的 Dream Track,這項服務(wù)已經(jīng)獲得了授權(quán),允許用戶通過一個提示詞界面,利用像 Charlie Puth 這樣的知名歌手的聲音來創(chuàng)作自己的歌曲。然而,Dream Track 僅限于一個小范圍的測試用戶群體,并且到目前為止,公開的樣本在聽覺效果上并不如 Suno 的產(chǎn)品那樣引人入勝,盡管它們使用了名人的聲音。

「我認為,人們未來并不希望通過 AI 來制作新的 Billy Joel 歌曲,」Shulman 說?!府斘蚁胂笪迥旰笪覀兿M藗?nèi)绾卫靡魳窌r,我認為會是那些尚未存在、僅存在于他們腦海中的創(chuàng)新作品?!?/p>

05廣告歌曲最受 Suno 影響,

《奧本海默》原聲帶已經(jīng)有 AI 參與

盡管 Suno 非常專注于吸引那些想要為了樂趣創(chuàng)作歌曲的音樂迷,但在這一過程中,它仍有可能造成重大的行業(yè)變革。短期內(nèi),看似最直接受到威脅的市場部分是一個利潤豐厚的部分:為廣告和電視節(jié)目創(chuàng)作的歌曲。管理公司 Milk and Honey 的創(chuàng)始人 Lucas Keller 指出,知名歌曲的市場將保持不受影響?!傅谄渌矫?,是的,它肯定在他們的業(yè)務(wù)上造成影響,」他說。「我認為最終,這讓許多廣告代理商、電影制片廠、網(wǎng)絡(luò)等不必去授權(quán)歌曲?!?/p>

在目前還沒有針對 AI 生成內(nèi)容有嚴格法律規(guī)定的情況下,可能會出現(xiàn)一個未來:像 Suno 這樣的大模型的用戶會將他們的 AI 創(chuàng)作以百萬計地上傳到流媒體服務(wù)平臺上?!窼potify 將來可能會說『你不能這么做』,」Shulman 說,他同時指出,到目前為止,Suno 的用戶似乎更傾向于僅僅將他們創(chuàng)作的歌曲通過短信分享給幾個朋友。

其他公司的 AI 音樂產(chǎn)品也開始逐步進入商業(yè)落地環(huán)節(jié)。

位于倫敦附近的 LifeScore 公司,他們的 AI 專注于重新組合用戶原始錄音的元素,以保持音樂的感覺,而不是將其變成完全不同的新作品。將數(shù)十個單獨錄制的聲樂和器樂麥克風軌道輸入 LifeScore 的模型需要大約一天的時間。但一旦完成這一過程,這個耗資約 1000 萬美元開發(fā)的軟件就可以在幾秒鐘內(nèi)將每個干聲轉(zhuǎn)換成新的速度、調(diào)性或風格。在這一過程中,歌曲的藝術(shù)家可以選擇保留哪些混音版本。傳統(tǒng)上,手動混音一首熱門曲目需要一個或多個高薪專家花費數(shù)周時間。

LifeScore 的共同創(chuàng)始人 Tom Gruber 表示,公司「收到了大量客戶的請求」,包括 Sony Music、Universal Music Group 和 Warner Music Group。一個原創(chuàng)發(fā)行通常會被轉(zhuǎn)換成幾首到十幾首混音。但有一個客戶計劃發(fā)布大約 6000 個左右的 AI 版本的原創(chuàng)曲目,每個版本針對不同的市場。包括 Pink Floyd 的 David Gilmour 和德國流行歌手 Tom Gaebel 在內(nèi)的藝術(shù)家使用 LifeScore 的 AI 來驅(qū)動網(wǎng)站,允許粉絲通過幾次點擊生成適應(yīng)個人口味的新混音。

RX,這是一款由 Native Instruments 開發(fā)的人工智能「助手」,它可以糾正音高和節(jié)奏等錯誤。對于節(jié)奏問題,軟件通過剪切或插入與原聲音色匹配的微小聲音片段來實現(xiàn)時間上的移動,這個過程被稱為「動態(tài)時間彎曲」。該公司的人工智能還能確定用戶所選歌曲進行了哪些混音和母帶處理。然后,它復(fù)制或至少近似復(fù)制同樣的操作到用戶自己的創(chuàng)作上。

AI 也開始為專業(yè)人士提供服務(wù)。例如,《芭比》和《奧本海默》的電影原聲帶就是在后期制作中使用 RX 進行清理的

另一個應(yīng)用領(lǐng)域是「風格遷移」,在這一過程中,模型將用一種樂器錄制的音樂轉(zhuǎn)換為似乎來自另一種樂器的聲音,通常還會根據(jù)用戶的要求進行一些調(diào)整。風格遷移也用于聲音。一家名為 Voice-Swap 的倫敦初創(chuàng)公司開發(fā)了一個模型,該模型將(有報酬的)專業(yè)歌手演唱的歌曲切割成碎片,并將這些碎片重新排列成服務(wù)用戶編寫的歌詞,用戶需支付授權(quán)費用以銷售生成的音軌。

而且,已經(jīng)有 AI 工具可以重新創(chuàng)建歌手的其他語言的聲音。雅馬哈(Yamaha)這家日本樂器制造商的 Vocaloid 是一種聲音合成工具,它可以利用母語人士演唱的翻譯作為模板,讓 AI 在重新排列、修改和拼接原唱歌手聲音的微小片段時進行模仿。

音樂家現(xiàn)在廣泛使用 MusicGen 及其競爭對手作為「靈感」的來源,以便更好地找到新的作曲想法,但這是否生效,也要看用戶是否接受。

原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請注明出處:http://leeannwhittemore.com/article/641980.html

AI的頭像AI認證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論