Выяснилось, что OpenAI создала генератор музыки в 2019 году — задолго до ChatGPT - Toolsify AI Blog

Если вы нерегулярно следите за новостями ИИ, вы, вероятно, ассоциируете OpenAI с ChatGPT, GPT-4 и взрывом больших языковых моделей в конце 2022 года. Эта хронология неполная. OpenAI строила генеративные музыкальные системы за годы до эпохи чат-ботов, и два проекта заслуживают особого внимания: MuseNet и Jukebox.

MuseNet: 25 апреля 2019

MuseNet был запущен 25 апреля 2019 года. Он мог генерировать композиции до четырёх минут с десятью различными инструментами, смешивая стили от Моцарта до Beatles. Это не опечатка — одна и та же система могла создать барочную фортепианную пьесу, а затем переключиться на поп-рок аранжировку.

Ключевая техническая деталь: MuseNet работал с MIDI-подобной символической музыкой. Он оперировал нотами, инструментовкой и структурой — не с сырым записанным звуком. Представьте себе генерацию партитуры, а не аудиофайлов. Это различие важно, потому что символическая музыка — гораздо более ограниченная задача, чем генерация сырого аудио.

Под капотом MuseNet использовал ту же универсальную неконтролируемую технологию, что и GPT-2. Модель обучалась предсказывать следующий токен в последовательности. Представляют ли эти токены слова в предложении или ноты в музыкальном отрывке, базовый паттерн аналогичен.

Jukebox: 30 апреля 2020

Jukebox появился год спустя, 30 апреля 2020 года, и это было совершенно другое существо. Если MuseNet генерировал символическую музыку, Jukebox шагнул в область сырого аудио. Он мог генерировать музыку — включая зачаточное пение — непосредственно как звуковые волны, в разных жанрах и стилях исполнителей.

Хронология разработки рассказывает историю нарастающих амбиций. OpenAI начала работу в июле 2019, расширила её в сентябре 2019, масштабировала в январе 2020 и публично выпустила в апреле 2020. Примерно десять месяцев от начала разработки до публичного релиза.

Jukebox показал, насколько сложна генерация сырого аудио. OpenAI была прозрачна в отношении основных ограничений: шум, слабая структура песен, медленная генерация. Рендер одной минуты аудио мог занять около девяти часов.

Почему это меняет понимание истории OpenAI

Существование MuseNet и Jukebox пересматривает распространённый нарратив об OpenAI. Путь к ChatGPT не был прямой линией от GPT-1 через GPT-4 к интерфейсу чат-бота. Это было десятилетнее исследование моделирования последовательностей в нескольких доменах: текст, код, изображения и музыка.

Техническая нить, связывающая их

Что связывает MuseNet, Jukebox и ChatGPT — это не музыка или чат как таковые. Это базовая архитектура: трансформеры, обученные на последовательных данных с использованием неконтролируемого обучения. Для текста последовательности — это токены. Для символической музыки — нотные события. Для сырого аудио — аудиосэмплы с высоким временным разрешением. Архитектура адаптируется. Цель обучения — предсказать, что будет дальше — остаётся неизменной.

Вывод

Работа OpenAI по генерации музыки в 2019–2020 годах напоминает, что технические амбиции компании всегда были шире любого отдельного продукта. Если кто-то говорит, что OpenAI делает только чат-боты, укажите ему на MuseNet и Jukebox.

Обновление: практичный фильтр для таких новостей об ИИ

В английской версии добавлены дополнительные критерии: сначала первоисточник, затем воспроизводимость, затем влияние на реальный рабочий процесс. Большого числа, скриншота или вирусной фразы недостаточно. Спросите: работает ли возможность стабильно? Что произойдет при ошибке? Есть ли официальная документация, статья, страница продукта или проверяемая демонстрация? Если это будет использовать команда, нужно заранее определить, кто проверяет, кто выпускает и кто отвечает за последствия ошибки.

Цель не в том, чтобы отслеживать каждый слух об ИИ, а в том, чтобы превращать информацию в решения: выбирать инструменты, менять процессы и снижать риски.