Künstliche Intelligenz kreiert BilderTeils gruselig, oft überraschend – und manchmal sogar schön
Wir haben fünf Systeme verglichen, die mittels künstlicher Intelligenz Textbeschreibungen in digitale Illustrationen verwandeln. Die Resultate der Text-zu-Bild-Revolution.
Von der «Text-zu-Bild-Revolution» ist zu lesen – und für einmal ist das nicht zu hoch gegriffen. Denn was derzeit passiert, verändert unser Verständnis davon, was ein Computer ist und was er kann. Bislang haben wir sie als Maschinen wahrgenommen, die unglaublich schnell, aber auch komplett fantasielos sind.
Doch diese Revolution versetzt die Maschinen in eine neue Rolle: Sie sollen sich kreativ betätigen. Auf Zuruf zwar – denn wir Menschen geben die Aufgabe vor –, doch wie ein System sie umsetzt, ist ihm überlassen. In den letzten Monaten sind eine Reihe solcher Systeme aufgetaucht, die sich teils frei, teils mit Zugangsbeschränkungen testen lassen. Ein Meilenstein in dieser Entwicklung ist Dall-e 2, ein System, das unter anderem von Elon Musk und Microsoft finanziert wird. Und neulich hat Stable Diffusion für Furore gesorgt: Diese Software ist Open Source, sodass die Nutzerinnen und Nutzer sie selbst betreiben und auch modifizieren können – das entsprechende Fachwissen und leistungsfähige Hardware vorausgesetzt.
Kunst aus der Maschine
Was taugen diese Systeme – und wie unterscheiden sie sich? Um einen Eindruck davon zu bekommen, haben wir fünf Systeme verglichen – und zwar anhand von zwei unterschiedlichen Aufgaben. Erstens wollten wir «die schönste Frau der Erde mit Fuchsohren und einem Hasenschwänzchen» sehen, zweitens das «Matterhorn aus Schokolade mit einem Hut aus Schlagrahm». Wir haben fünf Systemen diese Aufgabe gestellt, nämlich das von Elon Musk und Microsoft mit mehreren Millionen US-Dollar ausgestattete Dall·e 2, die Open-Source-Software Stable Diffusion plus die drei Herausforderer Craiyon, Artbreeder und Starryai.
Und das sind die Resultate:
Die Chimäre
Eindrücklich ist die Bandbreite der Kreationen. Die weniger entwickelten Systeme leiden unter dem «Uncanny Valley»-Effekt: Er besagt, dass künstlich erzeugte Bild, die lebensecht wirken sollen, uns schon mit kleinen Fehlern so sehr irritieren, dass wir sie ablehnen und als gruselig empfinden. Die weniger weit entwickelten Systeme stellen vor allem die menschliche Anatomie so fehlerhaft und deformiert dar, dass sie abschreckend und albtraumhaft wirken.
Im Vergleich dazu sind illustrative und comicartige Darstellungen so überzeugend, dass sie in einem Buch oder Magazin nicht weiter auffallen würden. Wir können davon ausgehen, dass uns solche Kreationen im Bereich der Illustration bald öfter begegnen werden.
Das Matterhorn aus Schokolade
Dieses Beispiel zeigt, dass die Systeme ihre liebe Mühe mit abstrakten Vorgaben haben: Einen Berg in ein Dessert zu verwandeln, dass sein ikonisches Wesen erhalten bleibt, überfordert die KI. Ein Künstler aus Fleisch und Blut würde eine solche Aufgabe locker bewältigen – und ausserdem die Gelegenheit wahrnehmen, dem Werk seinen Stempel aufzudrücken.
Schöpfungskraft aus enormer Rechenleistung
Wir sollten uns an dieser Stelle daran erinnern, dass wir solchen Systemen zwar «künstliche Intelligenz» attestieren, sie aber nicht wirklich kreativ sind. Sie ziehen ihre Schöpfungskraft aus einer enormen Rechenleistung und aus riesigen Datenbeständen: Die Systeme werden auf Milliarden von verschlagworteten Fotos trainiert, was ihnen hilft, konventionelle Ideen zu reproduzieren. Doch auf den göttlichen Funken warten wir vergebens.
Originelle Kunst wird durch die digitale Konkurrenz einen Aufschwung erfahren, je mehr die synthetische Kunst im Alltag anzutreffen sein wird – genauso, wie die handgezeichneten Disneyfilme heute noch aus der Masse der CGI-Animationen herausragen. Doch bei der weniger anspruchsvollen Illustration ist mit einem Preiszerfall zu rechnen – ähnlich wie in der Fotografie, wo Plattformen wie Pexels oder Unsplash eine riesige Auswahl an Stockfotos zum Nulltarif bereithalten.
Fehler gefunden?Jetzt melden.