OpenAI hat 2019 schon einen Musikgenerator gebaut – lange vor ChatGPT - Toolsify AI Blog

Wenn man KI-Nachrichten nur gelegentlich verfolgt, verbindet man OpenAI wahrscheinlich mit ChatGPT, GPT-4 und dem Explosion großer Sprachmodelle Ende 2022. Diese Zeitleiste ist unvollständig. OpenAI baute bereits Jahre vor der Chatbot-Ära generative Musiksysteme, und zwei Projekte verdienen besondere Aufmerksamkeit: MuseNet und Jukebox.

MuseNet: 25. April 2019

MuseNet wurde am 25. April 2019 gestartet. Es konnte bis zu vier Minuten lange Kompositionen mit zehn verschiedenen Instrumenten generieren und Stile von Mozart bis zu den Beatles mischen. Das ist kein Tippfehler — dasselbe System konnte ein Barock-Klavierstück erzeugen und dann zu einer Pop-Rock-Arrangement wechseln.

Das entscheidende technische Detail: MuseNet arbeitete mit MIDI-ähnlicher symbolischer Musik. Es verarbeitete Noten, Instrumentierung und Struktur — nicht rohen aufgenommenen Klang. Man kann es sich als Erzeugung von Notenblättern statt Audiodateien vorstellen. Dieser Unterschied ist wichtig, weil symbolische Musik ein viel eingeschränkteres Problem ist als die Rohaudiodarstellung.

Unter der Haube verwendete MuseNet dieselbe allgemeine unüberwachte Technologie wie GPT-2. Das Modell wurde darauf trainiert, das nächste Token in einer Sequenz vorherzusagen. Ob diese Token Wörter in einem Satz oder Noten in einer musikalischen Passage darstellen, das grundlegende Muster ist ähnlich.

Jukebox: 30. April 2020

Jukebox erschien ein Jahr später, am 30. April 2020, und es war ein grundlegend anderes Wesen. Während MuseNet symbolische Musik generierte, drang Jukebox in den Roheitsbereich vor. Es konnte Musik — einschließlich rudimentärem Gesang — direkt als Schallwellen erzeugen, in verschiedenen Genres und Künstlerstilen.

Die Entwicklungszeitleiste zeigt eine Geschichte steigender Ambitionen. OpenAI begann die Arbeit im Juli 2019, erweiterte sie im September 2019, skalierte im Januar 2020 und veröffentlichte im April 2020. Das sind etwa zehn Monate von der anfänglichen Entwicklung bis zur öffentlichen Veröffentlichung.

Jukebox zeigte, wie schwierig Roheitsaudiodarstellung wirklich ist. OpenAI war transparent über die Hauptbeschränkungen: Rauschen, schwache Songstruktur und langsame Generierung. Eine Minute Audio zu rendern konnte etwa neun Stunden dauern.

Warum das die Geschichte von OpenAI verändert

Die Existenz von MuseNet und Jukebox ordnet das übliche Narrativ über OpenAI neu ein. Der Weg zu ChatGPT war keine gerade Linie von GPT-1 über GPT-4 zu einer Chatbot-Oberfläche. Es war eine jahrzehntelange Erforschung der Sequenzmodellierung über mehrere Domänen hinweg: Text, Code, Bilder und Musik.

Das technische Band, das sie verbindet

Was MuseNet, Jukebox und ChatGPT verbindet, ist nicht Musik oder Chat speziell. Es ist die zugrunde liegende Architektur: Transformer, die auf Sequenzdaten mit unüberwachtem Lernen trainiert wurden. Für Text sind die Sequenzen Tokens. Für symbolische Musik sind es Notenereignisse. Für Roheitsaudio sind es Audiosamples mit hoher zeitlicher Auflösung. Die Architektur passt sich an. Das Trainingsziel — vorhersagen, was als nächstes kommt — bleibt gleich.

Fazit

OpenAIs Musikerzeugungsarbeit in 2019 und 2020 erinnert daran, dass die technischen Ambitionen des Unternehmens immer breiter waren als ein einzelnes Produkt. Wenn jemand sagt, OpenAI mache nur Chatbots, zeigen Sie ihm MuseNet und Jukebox.

Ergänzung: Ein praktischer Maßstab für solche AI-Meldungen

Die englische Fassung ergänzt mehr Prüffragen: zuerst die Primärquelle, dann die Reproduzierbarkeit, danach der Nutzen im echten Workflow. Lassen Sie sich nicht nur von großen Zahlen, Screenshots oder einem zugespitzten Satz führen. Fragen Sie: Läuft die Fähigkeit stabil? Was passiert bei einem Fehler? Gibt es offizielle Dokumentation, ein Paper, Produktunterlagen oder eine überprüfbare Demo? In einem Team muss außerdem klar sein, wer prüft, wer veröffentlicht und wer die Folgen eines Fehlers trägt.

Wertvoll ist nicht jede AI-Nachricht, sondern die Information, die Entscheidungen verbessert: Tool-Auswahl, Prozessänderungen, Risikoabbau. Reine Empörung darf schnell veralten.