The Generative AI Revolution

Zusammenfassung

Die Geschichte der generativen KI beginnt damit, dass ein Doktorand nach einer Abschiedsfeier betrunken nach Hause geht und eine Idee testet, die seine Freunde für unmöglich halten. Ian Goodfellow tippte in der Nacht zum 27. Mai 2014 in Montreal den Code für das erste Generative Adversarial Network — und es funktionierte beim ersten Versuch. Was folgte, war ein Jahrzehnt stetig komplizierterer Maschinen, die Gesichter erfanden, Bilder aus Texteingaben erzeugten und schließlich in Form von ChatGPT die Massenanwendung fanden, die die künstliche Intelligenz für jedermann sichtbar machte: 100 Millionen Nutzer in zwei Monaten, die schnellste Adoption eines Konsumentenprodukts in der Geschichte des Internets.

Eine Nacht in Montreal

Am 26. Mai 2014 saß Ian Goodfellow, Doktorand an der Universität Montreal, in der Bar Les 3 Brasseurs und hörte einem Problem zu. Kollegen arbeiteten an einem System, das Bilder synthetisch erzeugen sollte — und steckten fest. Ihr Plan: aufwändige statistische Modelle, die verteilungstheoretisch korrekte Bilder approximierten. Goodfellow erklärte, warum das nicht funktionieren würde. Dann beschrieb er eine Alternative.

Die Grundidee war spieltheoretisch: Was, wenn man zwei neuronale Netze gegeneinander antreten ließe? Ein Generator, der aus zufälligem Rauschen Bilder erzeugt. Ein Diskriminator, der versucht, echte von generierten Bildern zu unterscheiden. Beide trainieren simultan: Der Generator lernt, den Diskriminator zu täuschen; der Diskriminator lernt, den Generator zu entlarven. Im Idealzustand erzeugt der Generator Bilder, die selbst ein perfekter Diskriminator nicht mehr von echten unterscheiden kann.

Seine Freunde waren skeptisch. Goodfellow fuhr nach Hause, schrieb den Code, während seine Freundin schlief, und startete das Training. Es funktionierte. Die ersten Ergebnisse waren grob, aber sie bewiesen das Prinzip.

Das Paper “Generative Adversarial Networks” erschien wenige Wochen später und ist heute eines der meistzitierten in der Informatikgeschichte. Yann LeCun bezeichnete GANs als „die interessanteste Idee in der Informatik der letzten zehn Jahre".

Das adversarielle Prinzip

Die elegante Architektur des GAN-Ansatzes lässt sich als Minimax-Spiel beschreiben: Generator G und Diskriminator D spielen ein Nullsummenspiel. G versucht, D zu täuschen; D versucht, G zu enttarnen. Mathematisch minimiert G den Wert, den D maximiert.

Das Entscheidende ist, dass kein explizites Beispiel dafür nötig ist, wie ein gutes Bild aussieht — der Diskriminator lernt die Kriterien selbst aus realen Daten. Das Generationsproblem wird auf ein Klassifikationsproblem reduziert, das neuronale Netze bereits gut lösen konnten.

Das Training war in der Praxis allerdings notorisch instabil. Zwei Pathologien:

Mode Collapse: Der Generator konnte lernen, nur einen einzigen besonders überzeugenden Typ von Bildern zu erzeugen — statt der vollen Vielfalt der Trainingsdaten. Zeigte der Diskriminator Schwächen bei Katzenbildern, produzierte der Generator nur noch Katzen.
Verschwindende Gradienten: Wurde der Diskriminator zu gut, gab er dem Generator kaum noch differenziertes Feedback — der Lernprozess erstarb.

Trotz dieser Instabilitäten war der Fortschritt über die folgenden Jahre atemberaubend.

Von verschwommenen Gesichtern zu thispersondoesnotexist.com

2014 erzeugten GANs pixelige 28×28-Bilder von handgeschriebenen Ziffern — überzeugend für Zahlen, weit entfernt von Fotorealismus. Die Entwicklung beschleunigte sich Jahr für Jahr:

ProgressiveGAN (NVIDIA, 2018): Training begann bei 4×4-Pixeln und steigerte die Auflösung schrittweise. Ergebnis: fotorealistische Gesichter in 1024×1024 Pixeln.
StyleGAN (NVIDIA, Tero Karras et al., 2019): Trennte den globalen Stil (Gesichtsform, Haarfarbe) von lokalen Details (Poren, Haare) durch separate Steuerungsebenen. Die Ergebnisse waren erschreckend überzeugend.

Im Februar 2019 startete Philip Wang die Website thispersondoesnotexist.com: Ein einziges frisch generiertes Gesicht bei jedem Seitenaufruf. Jede Person auf dieser Seite existiert nicht. Die Bilder waren von Fotos realer Menschen nicht zu unterscheiden. Die Welt registrierte erstmals breit, wozu generative Modelle fähig waren.

Warnung

Deepfakes und das Liar’s Dividend: Dieselbe Technologie, die Kunst und Design demokratisierte, ermöglichte massenhafte synthetische Täuschung. Deepfakes — manipulierte Videos, in denen reale Personen Dinge sagen oder tun, die nie stattgefunden haben — entstanden direkt aus GAN-Technologie. Der Jurist Bobby Chesney prägte 2018 den Begriff des Liar’s Dividend: Die Existenz von Deepfakes macht es leichter, echtes belastendes Material als Fälschung abzutun. Die Beweiskraft von Videos und Fotos hat sich seither systematisch verringert — unabhängig davon, wie oft Deepfakes tatsächlich eingesetzt werden.

CLIP: Die Brücke zwischen Sprache und Bild

Im Januar 2021 veröffentlichte OpenAI CLIP (Contrastive Language-Image Pre-training). Das Modell war auf 400 Millionen Bild-Text-Paaren aus dem Internet trainiert worden — jedes Foto mit einer Bildunterschrift oder einem Alt-Text.

Die Trainingslogik war kontrastiv: Das Modell lernte, Bilder und zugehörige Texte im selben Vektorraum nah beieinander zu platzieren, nicht zugehörige Paare weit auseinander. Das Ergebnis war ein Modell, das semantisches Verständnis zwischen Modalitäten herstellte: „a dog playing in snow" und ein entsprechendes Foto landeten im selben mathematischen Raum.

CLIP war die fehlende Verbindung. Bisherige Bildgeneratoren arbeiteten ohne Sprache; bisherige Sprachmodelle ohne Bild. CLIP schuf ein gemeinsames Koordinatensystem. Damit wurde Text-zu-Bild-Generierung konzeptuell lösbar: Man suche im gelernten Raum nach einem Bild, das einer Textbeschreibung entspricht.

Diffusionsmodelle: Ein stabilerer Weg zur Perfektion

Parallel zur GAN-Entwicklung entstand ein konzeptuell anderer Ansatz: Diffusionsmodelle.

Die Grundidee (formalisiert als Denoising Diffusion Probabilistic Models, DDPM, von Jonathan Ho et al., NeurIPS 2020): Man nimmt ein echtes Bild und fügt schrittweise zufälliges Rauschen hinzu — bis das Bild vollständig verrauscht ist. Das Modell lernt den umgekehrten Prozess: wie man aus Rauschen schrittweise ein kohärentes Bild rekonstruiert.

Dieser Ansatz war stabiler als GANs: Es gab kein adversariales Training, keinen Mode Collapse, keine verschwindenden Gradienten. Das Training minimierte einen wohldefinierten Rekonstruktionsverlust. Die Bildqualität übertraf bei ausreichender Rechenzeit GANs signifikant.

Die entscheidenden Produkte des Jahres 2022:

DALL-E 2 (OpenAI, April 2022): Kombinierte CLIP-Embeddings mit Diffusionsmodellen. Eine Texteingabe wurde in einen CLIP-Vektor übersetzt; ein Diffusionsmodell generierte ein Bild, das diesem Vektor entsprach. Die Ergebnisse revolutionierten visuelles Prompting.
Midjourney (Beta-Start 12. Juli 2022): Ein kommerzielles Diffusionsmodell, bekannt für besonders ästhetische, künstlerisch stilisierte Ausgaben.
Stable Diffusion (August 2022): Entwickelt von Robin Rombach, Andreas Blattmann und Kollegen an der LMU München und der Universität Heidelberg als Latent Diffusion Model — das Rauschen wird nicht im Pixelraum, sondern in einem komprimierten latenten Raum angewendet. Stability AI veröffentlichte Modellgewichte und Quellcode als Open Source. Erstmals konnte Text-zu-Bild-Generierung auf handelsüblichen Gaming-GPUs mit weniger als 4 GB VRAM lokal ausgeführt werden. Generative KI war nicht mehr auf Cloud-Dienste beschränkt.

Das ChatGPT-Moment

Am 30. November 2022 veröffentlichte OpenAI ChatGPT als kostenlosen öffentlichen Test. Das Produkt basierte auf GPT-3.5 — einem Modell, das zusätzlich mit Reinforcement Learning from Human Feedback (RLHF) feinabgestimmt worden war, um sich natürlich und hilfreich zu verhalten statt nur Text zu vervollständigen.

Die Wachstumsrate war ohne Präzedenz in der Geschichte des Internets:

Plattform	Zeit bis 1 Million Nutzer	Zeit bis 100 Millionen Nutzer
ChatGPT	5 Tage	2 Monate
TikTok	9 Monate	—
Instagram	—	2,5 Jahre
Twitter	—	5 Jahre

Die technische Leistung war nicht schlagartig neu — GPT-3 hatte 2020 bereits beeindruckt. Was ChatGPT anders machte, war die Zugänglichkeit: eine konversationelle Schnittstelle, kein API-Aufruf, keine Programmierkenntnisse. Für viele Menschen war es das erste Mal, dass KI nicht als Werkzeug für Experten, sondern als Gesprächspartner erlebbar wurde.

Die Reaktion der Industrie war eine Schockwelle: Google erklärte intern den „Code Red", Microsoft investierte 10 Milliarden Dollar in OpenAI, Alphabet überstürzte die Veröffentlichung von Bard. Innerhalb von sechs Monaten nach ChatGPTs Start hatten alle großen Technologiekonzerne der Welt ihre KI-Strategie neu ausgerichtet.

Dead End: Das adversarielle Paradigma und seine Grenzen

GANs dominierten die generative KI von 2014 bis etwa 2021 — sieben Jahre lang waren sie der Standardansatz für jedes Bildgenerierungsproblem. Mit dem Aufstieg der Diffusionsmodelle wurden sie als primäres Paradigma weitgehend verdrängt.

Das Problem war strukturell. GANs funktionierten durch Adversarial Training — und dieses Training war inherent fragil. Die Verlustfunktion des Generators hing direkt vom Diskriminator ab: Wurde der Diskriminator zu schnell zu gut, brach das Lernsignal zusammen. Wurde er zu langsam verbessert, kollabierte der Generator auf wenige Muster. Das Gleichgewicht zu halten erforderte feines manuelles Hyperparameter-Tuning; Reproduzierbarkeit war ein chronisches Problem.

Diffusionsmodelle umgingen diese Fragilität fundamental. Der Trainingsprozess hatte ein klares, stabiles Ziel: Rauschen rekonstruieren. Keine Spieltheorie, kein Gleichgewichtsproblem. Bei ausreichend Rechenzeit skalieren Diffusionsmodelle konsistent besser — ein Eigenschaft, die in der Ära billiger Cloud-GPU-Zeit entscheidend wurde.

GANs sind nicht verschwunden — für bestimmte Anwendungen (Video-Generierung in Echtzeit, bestimmte Transfer-Aufgaben) bleiben sie relevant. Aber die große Erwartung der 2010er Jahre, dass adversariales Training der Königsweg zur allgemeinen visuellen Synthese sei, hat sich nicht erfüllt. Die eleganteste Idee erwies sich nicht als die leistungsstärkste.