才知道 OpenAI 在 2019 年就做了音樂生成器——遠在 ChatGPT 之前 - Toolsify AI Blog

如果你只是偶爾關注 AI 新聞，你可能會把 OpenAI 和 ChatGPT、GPT-4 以及 2022 年底的大語言模型爆發聯繫在一起。這個時間線是不完整的。OpenAI 在聊天機器人時代之前好幾年就在建構生成式音樂系統，有兩個專案特別值得重新審視——MuseNet 和 Jukebox。

MuseNet：2019 年 4 月 25 日

MuseNet 於 2019 年 4 月 25 日發布。它能生成最長四分鐘的樂曲，使用十種不同的樂器，混合從莫札特到披頭士的多種風格。這不是筆誤——同一個系統既能生成巴洛克鋼琴曲，也能切換到流行搖滾編曲。

關鍵的技術細節是：MuseNet 處理的是 MIDI 風格的符號音樂。它處理的是音符、樂器配置和結構——而不是原始錄音。可以理解為它生成的是樂譜而不是音頻檔案。這個區別很重要，因為符號音樂是一個比原始音頻生成受限得多的問題。

在底層，MuseNet 使用了與 GPT-2 相同的通用無監督技術。模型被訓練來預測序列中的下一個 token。無論這些 token 代表句子中的單詞還是樂曲中的音符，基本模式是相似的。這就是 Transformer 的核心洞察：序列預測可以跨領域泛化。

四分鐘的連貫多樂器編曲絕非易事。在保持十種樂器音樂對齊的同時在不同風格間切換，要求模型維持長程結構。這種能力——管理具有多個並發線程的長序列——後來被證明與 GPT 模型處理長文檔和複雜推理鏈的方式直接相關。

Jukebox：2020 年 4 月 30 日

Jukebox 在一年後的 2020 年 4 月 30 日問世，它是一個根本不同的物種。MuseNet 生成符號音樂，Jukebox 則推進到了原始音頻領域。它能直接以聲波形式生成音樂——包括粗糙的人聲——涵蓋不同的流派和藝術家風格。

Jukebox 的開發時間線講述了一個雄心不斷升級的故事。OpenAI 在 2019 年 7 月開始開發，9 月擴大規模，2020 年 1 月進一步擴展，4 月公開發布。從初始開發到公開發布大約十個月。

Jukebox 展示了原始音頻生成有多難。OpenAI 對主要限制非常坦誠：輸出含有噪音、歌曲結構薄弱、生成速度極慢。渲染一分鐘音頻可能需要大約九個小時。九個小時換六十秒音樂。這是研究實驗室的水平，不可能在某個週二下午交給普通消費者使用。

這如何改變你對 OpenAI 歷史的理解

MuseNet 和 Jukebox 的存在重構了關於 OpenAI 的常見敘事。通往 ChatGPT 的道路不是從 GPT-1 經過 GPT-4 到聊天介面的直線。它是對序列建模在多個領域——文本、程式碼、圖像和音樂——的長達十年的探索。

每個領域教會團隊不同的東西。文本教會他們語言結構和連貫性。程式碼教會他們邏輯推理和精確性。音樂教會長程時間結構和多通道生成。圖像——透過 DALL-E——教會他們跨模態映射。

結論

OpenAI 在 2019 年和 2020 年的音樂生成工作提醒我們，公司的技術雄心一直比任何單一產品更廣泛。支撐 MuseNet 四分鐘作曲的序列建模基礎，最終也支撐了 ChatGPT 的對話能力。如果有人告訴你 OpenAI 只做聊天機器人，讓他們去看看 MuseNet 和 Jukebox。

補充：閱讀這類 AI 新聞時的實用標準

英文版補上了更多判斷標準：先看原始來源，再看可重現性，最後看它對真實工作流程有什麼影響。不要只被數字、截圖或一句爆點帶走。更可靠的做法是問：這項能力能否穩定使用？失敗時會造成什麼後果？是否有官方文件、論文、產品說明或可驗證的展示支持？如果要用在團隊工作，還要說清楚誰負責複核、誰負責上線、誰承擔錯誤成本。

重點不是追每一個 AI 傳聞，而是把資訊變成可執行判斷。能幫你選工具、改流程、降低風險的內容才值得保存；只能製造情緒的內容，看看就好。