Zurück zum Blog
2026-03-26
Toolsify Editorial Team
AI History

OpenAI hat 2019 schon einen Musikgenerator gebaut – lange vor ChatGPT

OpenAIMuseNetJukeboxAI MusicChatGPTjust found out openai made a music generator in 2019 way before chatgpt
Sponsored

Wenn man KI-Nachrichten nur gelegentlich verfolgt, verbindet man OpenAI wahrscheinlich mit ChatGPT, GPT-4 und dem Explosion großer Sprachmodelle Ende 2022. Diese Zeitleiste ist unvollständig. OpenAI baute bereits Jahre vor der Chatbot-Ära generative Musiksysteme, und zwei Projekte verdienen besondere Aufmerksamkeit: MuseNet und Jukebox.

MuseNet: 25. April 2019

MuseNet wurde am 25. April 2019 gestartet. Es konnte bis zu vier Minuten lange Kompositionen mit zehn verschiedenen Instrumenten generieren und Stile von Mozart bis zu den Beatles mischen. Das ist kein Tippfehler — dasselbe System konnte ein Barock-Klavierstück erzeugen und dann zu einer Pop-Rock-Arrangement wechseln.

Das entscheidende technische Detail: MuseNet arbeitete mit MIDI-ähnlicher symbolischer Musik. Es verarbeitete Noten, Instrumentierung und Struktur — nicht rohen aufgenommenen Klang. Man kann es sich als Erzeugung von Notenblättern statt Audiodateien vorstellen. Dieser Unterschied ist wichtig, weil symbolische Musik ein viel eingeschränkteres Problem ist als die Rohaudiodarstellung.

Unter der Haube verwendete MuseNet dieselbe allgemeine unüberwachte Technologie wie GPT-2. Das Modell wurde darauf trainiert, das nächste Token in einer Sequenz vorherzusagen. Ob diese Token Wörter in einem Satz oder Noten in einer musikalischen Passage darstellen, das grundlegende Muster ist ähnlich.

Jukebox: 30. April 2020

Jukebox erschien ein Jahr später, am 30. April 2020, und es war ein grundlegend anderes Wesen. Während MuseNet symbolische Musik generierte, drang Jukebox in den Roheitsbereich vor. Es konnte Musik — einschließlich rudimentärem Gesang — direkt als Schallwellen erzeugen, in verschiedenen Genres und Künstlerstilen.

Die Entwicklungszeitleiste zeigt eine Geschichte steigender Ambitionen. OpenAI begann die Arbeit im Juli 2019, erweiterte sie im September 2019, skalierte im Januar 2020 und veröffentlichte im April 2020. Das sind etwa zehn Monate von der anfänglichen Entwicklung bis zur öffentlichen Veröffentlichung.

Jukebox zeigte, wie schwierig Roheitsaudiodarstellung wirklich ist. OpenAI war transparent über die Hauptbeschränkungen: Rauschen, schwache Songstruktur und langsame Generierung. Eine Minute Audio zu rendern konnte etwa neun Stunden dauern.

Warum das die Geschichte von OpenAI verändert

Die Existenz von MuseNet und Jukebox ordnet das übliche Narrativ über OpenAI neu ein. Der Weg zu ChatGPT war keine gerade Linie von GPT-1 über GPT-4 zu einer Chatbot-Oberfläche. Es war eine jahrzehntelange Erforschung der Sequenzmodellierung über mehrere Domänen hinweg: Text, Code, Bilder und Musik.

Das technische Band, das sie verbindet

Was MuseNet, Jukebox und ChatGPT verbindet, ist nicht Musik oder Chat speziell. Es ist die zugrunde liegende Architektur: Transformer, die auf Sequenzdaten mit unüberwachtem Lernen trainiert wurden. Für Text sind die Sequenzen Tokens. Für symbolische Musik sind es Notenereignisse. Für Roheitsaudio sind es Audiosamples mit hoher zeitlicher Auflösung. Die Architektur passt sich an. Das Trainingsziel — vorhersagen, was als nächstes kommt — bleibt gleich.

Fazit

OpenAIs Musikerzeugungsarbeit in 2019 und 2020 erinnert daran, dass die technischen Ambitionen des Unternehmens immer breiter waren als ein einzelnes Produkt. Wenn jemand sagt, OpenAI mache nur Chatbots, zeigen Sie ihm MuseNet und Jukebox.

Sponsored