Выяснилось, что OpenAI создала генератор музыки в 2019 году — задолго до ChatGPT
Если вы нерегулярно следите за новостями ИИ, вы, вероятно, ассоциируете OpenAI с ChatGPT, GPT-4 и взрывом больших языковых моделей в конце 2022 года. Эта хронология неполная. OpenAI строила генеративные музыкальные системы за годы до эпохи чат-ботов, и два проекта заслуживают особого внимания: MuseNet и Jukebox.
MuseNet: 25 апреля 2019
MuseNet был запущен 25 апреля 2019 года. Он мог генерировать композиции до четырёх минут с десятью различными инструментами, смешивая стили от Моцарта до Beatles. Это не опечатка — одна и та же система могла создать барочную фортепианную пьесу, а затем переключиться на поп-рок аранжировку.
Ключевая техническая деталь: MuseNet работал с MIDI-подобной символической музыкой. Он оперировал нотами, инструментовкой и структурой — не с сырым записанным звуком. Представьте себе генерацию партитуры, а не аудиофайлов. Это различие важно, потому что символическая музыка — гораздо более ограниченная задача, чем генерация сырого аудио.
Под капотом MuseNet использовал ту же универсальную неконтролируемую технологию, что и GPT-2. Модель обучалась предсказывать следующий токен в последовательности. Представляют ли эти токены слова в предложении или ноты в музыкальном отрывке, базовый паттерн аналогичен.
Jukebox: 30 апреля 2020
Jukebox появился год спустя, 30 апреля 2020 года, и это было совершенно другое существо. Если MuseNet генерировал символическую музыку, Jukebox шагнул в область сырого аудио. Он мог генерировать музыку — включая зачаточное пение — непосредственно как звуковые волны, в разных жанрах и стилях исполнителей.
Хронология разработки рассказывает историю нарастающих амбиций. OpenAI начала работу в июле 2019, расширила её в сентябре 2019, масштабировала в январе 2020 и публично выпустила в апреле 2020. Примерно десять месяцев от начала разработки до публичного релиза.
Jukebox показал, насколько сложна генерация сырого аудио. OpenAI была прозрачна в отношении основных ограничений: шум, слабая структура песен, медленная генерация. Рендер одной минуты аудио мог занять около девяти часов.
Почему это меняет понимание истории OpenAI
Существование MuseNet и Jukebox пересматривает распространённый нарратив об OpenAI. Путь к ChatGPT не был прямой линией от GPT-1 через GPT-4 к интерфейсу чат-бота. Это было десятилетнее исследование моделирования последовательностей в нескольких доменах: текст, код, изображения и музыка.
Техническая нить, связывающая их
Что связывает MuseNet, Jukebox и ChatGPT — это не музыка или чат как таковые. Это базовая архитектура: трансформеры, обученные на последовательных данных с использованием неконтролируемого обучения. Для текста последовательности — это токены. Для символической музыки — нотные события. Для сырого аудио — аудиосэмплы с высоким временным разрешением. Архитектура адаптируется. Цель обучения — предсказать, что будет дальше — остаётся неизменной.
Вывод
Работа OpenAI по генерации музыки в 2019–2020 годах напоминает, что технические амбиции компании всегда были шире любого отдельного продукта. Если кто-то говорит, что OpenAI делает только чат-боты, укажите ему на MuseNet и Jukebox.