返回博客
2026-03-26
Toolsify Editorial Team
AI History

才知道 OpenAI 在 2019 年就做了音樂生成器——遠在 ChatGPT 之前

OpenAIMuseNetJukeboxAI MusicChatGPTjust found out openai made a music generator in 2019 way before chatgpt
Sponsored

如果你只是偶爾關注 AI 新聞,你可能會把 OpenAI 和 ChatGPT、GPT-4 以及 2022 年底的大語言模型爆發聯繫在一起。這個時間線是不完整的。OpenAI 在聊天機器人時代之前好幾年就在建構生成式音樂系統,有兩個專案特別值得重新審視——MuseNet 和 Jukebox。

MuseNet:2019 年 4 月 25 日

MuseNet 於 2019 年 4 月 25 日發布。它能生成最長四分鐘的樂曲,使用十種不同的樂器,混合從莫札特到披頭士的多種風格。這不是筆誤——同一個系統既能生成巴洛克鋼琴曲,也能切換到流行搖滾編曲。

關鍵的技術細節是:MuseNet 處理的是 MIDI 風格的符號音樂。它處理的是音符、樂器配置和結構——而不是原始錄音。可以理解為它生成的是樂譜而不是音頻檔案。這個區別很重要,因為符號音樂是一個比原始音頻生成受限得多的問題。

在底層,MuseNet 使用了與 GPT-2 相同的通用無監督技術。模型被訓練來預測序列中的下一個 token。無論這些 token 代表句子中的單詞還是樂曲中的音符,基本模式是相似的。這就是 Transformer 的核心洞察:序列預測可以跨領域泛化。

四分鐘的連貫多樂器編曲絕非易事。在保持十種樂器音樂對齊的同時在不同風格間切換,要求模型維持長程結構。這種能力——管理具有多個並發線程的長序列——後來被證明與 GPT 模型處理長文檔和複雜推理鏈的方式直接相關。

Jukebox:2020 年 4 月 30 日

Jukebox 在一年後的 2020 年 4 月 30 日問世,它是一個根本不同的物種。MuseNet 生成符號音樂,Jukebox 則推進到了原始音頻領域。它能直接以聲波形式生成音樂——包括粗糙的人聲——涵蓋不同的流派和藝術家風格。

Jukebox 的開發時間線講述了一個雄心不斷升級的故事。OpenAI 在 2019 年 7 月開始開發,9 月擴大規模,2020 年 1 月進一步擴展,4 月公開發布。從初始開發到公開發布大約十個月。

Jukebox 展示了原始音頻生成有多難。OpenAI 對主要限制非常坦誠:輸出含有噪音、歌曲結構薄弱、生成速度極慢。渲染一分鐘音頻可能需要大約九個小時。九個小時換六十秒音樂。這是研究實驗室的水平,不可能在某個週二下午交給普通消費者使用。

這如何改變你對 OpenAI 歷史的理解

MuseNet 和 Jukebox 的存在重構了關於 OpenAI 的常見敘事。通往 ChatGPT 的道路不是從 GPT-1 經過 GPT-4 到聊天介面的直線。它是對序列建模在多個領域——文本、程式碼、圖像和音樂——的長達十年的探索。

每個領域教會團隊不同的東西。文本教會他們語言結構和連貫性。程式碼教會他們邏輯推理和精確性。音樂教會長程時間結構和多通道生成。圖像——透過 DALL-E——教會他們跨模態映射。

結論

OpenAI 在 2019 年和 2020 年的音樂生成工作提醒我們,公司的技術雄心一直比任何單一產品更廣泛。支撐 MuseNet 四分鐘作曲的序列建模基礎,最終也支撐了 ChatGPT 的對話能力。如果有人告訴你 OpenAI 只做聊天機器人,讓他們去看看 MuseNet 和 Jukebox。

Sponsored