才知道 OpenAI 在 2019 年就做了音乐生成器——远在 ChatGPT 之前
如果你只是偶尔关注 AI 新闻,你可能会把 OpenAI 和 ChatGPT、GPT-4 以及 2022 年底的大语言模型爆发联系在一起。这个时间线是不完整的。OpenAI 在聊天机器人时代之前好几年就在构建生成式音乐系统,有两个项目特别值得重新审视——MuseNet 和 Jukebox。
MuseNet:2019 年 4 月 25 日
MuseNet 于 2019 年 4 月 25 日发布。它能生成最长四分钟的乐曲,使用十种不同的乐器,混合从莫扎特到披头士的多种风格。这不是笔误——同一个系统既能生成巴洛克钢琴曲,也能切换到流行摇滚编曲。
关键的技术细节是:MuseNet 处理的是 MIDI 风格的符号音乐。它处理的是音符、乐器配置和结构——而不是原始录音。可以理解为它生成的是乐谱而不是音频文件。这个区别很重要,因为符号音乐是一个比原始音频生成受限得多的问题。
在底层,MuseNet 使用了与 GPT-2 相同的通用无监督技术。模型被训练来预测序列中的下一个 token。无论这些 token 代表句子中的单词还是乐曲中的音符,基本模式是相似的。这就是 Transformer 的核心洞察:序列预测可以跨领域泛化。
四分钟的连贯多乐器编曲绝非易事。在保持十种乐器音乐对齐的同时在不同风格间切换,要求模型维持长程结构。这种能力——管理具有多个并发线程的长序列——后来被证明与 GPT 模型处理长文档和复杂推理链的方式直接相关。
Jukebox:2020 年 4 月 30 日
Jukebox 在一年后的 2020 年 4 月 30 日问世,它是一个根本不同的物种。MuseNet 生成符号音乐,Jukebox 则推进到了原始音频领域。它能直接以声波形式生成音乐——包括粗糙的人声——涵盖不同的流派和艺术家风格。
Jukebox 的开发时间线讲述了一个雄心不断升级的故事。OpenAI 在 2019 年 7 月开始开发,9 月扩大规模,2020 年 1 月进一步扩展,4 月公开发布。从初始开发到公开发布大约十个月。
Jukebox 展示了原始音频生成有多难。OpenAI 对主要限制非常坦诚:输出含有噪音、歌曲结构薄弱、生成速度极慢。渲染一分钟音频可能需要大约九个小时。九个小时换六十秒音乐。这是研究实验室的水平,不可能在某个周二下午交给普通消费者使用。
噪音问题是结构性的而非偶然的。44.1 kHz 的标准 CD 音质意味着每秒每声道处理 44,100 个采样。在这个分辨率下生成一首三分钟的歌曲,涉及预测数十万个连续采样,同时保持音乐连贯性。模型必须将风格、旋律、节奏和歌词的理解压缩到一个比文本生成复杂数个数量级的生成流程中。
这如何改变你对 OpenAI 历史的理解
MuseNet 和 Jukebox 的存在重构了关于 OpenAI 的常见叙事。通往 ChatGPT 的道路不是从 GPT-1 经过 GPT-4 到聊天界面的直线。它是对序列建模在多个领域——文本、代码、图像和音乐——的长达十年的探索。
每个领域教会团队不同的东西。文本教会他们语言结构和连贯性。代码教会他们逻辑推理和精确性。音乐教会长程时间结构和多通道生成。图像——通过 DALL-E——教会他们跨模态映射。
"OpenAI 在 ChatGPT 之前就做了音乐生成器"这个广为流传的说法方向正确但不够精确。2019 年对应的是 MuseNet 和 Jukebox 的早期开发。Jukebox 本身直到 2020 年 4 月才发布。而且两个系统都不是产品——它们是研究演示,曾短暂托管在 OpenAI 网站上,随着公司将重心转向商业可行的工具而被下线。
连接它们的技术线索
将 MuseNet、Jukebox 和 ChatGPT 连接在一起的不是音乐或聊天本身。而是底层架构:在序列数据上使用无监督学习训练的 Transformer。模型从海量数据中学习模式,然后生成遵循这些模式的新序列。
对于文本,序列是 token(大致是单词或子词)。对于符号音乐,序列是音符事件(音高、时长、乐器)。对于原始音频,序列是高时间分辨率的音频采样。架构会适配。训练目标——预测接下来是什么——保持不变。
这种泛化能力解释了 OpenAI 为什么能在不同领域间迁移。公司不需要为音乐和文本分别配备独立的研究团队。相同的核心能力——在序列数据上训练大型 Transformer——适用于所有领域。
音乐项目后来怎样了?
OpenAI 从未将 MuseNet 或 Jukebox 作为商业产品推出。演示页面最终被下线。公司的重心转向了 GPT-3、ChatGPT、DALL-E 以及最终的 GPT-4。音乐生成被降级——不是因为失败,而是因为文本和图像的商业路径更清晰。
其他公司填补了空白。Google 的 MusicLM(后来的 MusicFX)、Stability AI 的 Stable Audio、Suno 和 Udio 都在 2023 年和 2024 年作为音乐生成工具出现。其中一些提供了 Jukebox 九小时渲染时间无法支持的消费者友好体验。
结论
OpenAI 在 2019 年和 2020 年的音乐生成工作提醒我们,公司的技术雄心一直比任何单一产品更广泛。支撑 MuseNet 四分钟作曲的序列建模基础,最终也支撑了 ChatGPT 的对话能力。如果有人告诉你 OpenAI 只做聊天机器人,让他们去看看 MuseNet 和 Jukebox。在大多数人听说过 GPT 之前,这家公司就已经在用十种乐器和粗糙的人声生成音乐了。时间线是真实的,技术是严肃的,它塑造了之后一切的道路。