Ihr Browser ist veraltet. Bitte aktualisieren Sie Ihren Browser auf die neueste Version, oder wechseln Sie auf einen anderen Browser wie ChromeSafariFirefox oder Edge um Sicherheitslücken zu vermeiden und eine bestmögliche Performance zu gewährleisten.

Zum Hauptinhalt springen

Kunst und künstliche Intelligenz
Microsofts neue Bilder-KI ist hinreissend

Die Vorgabe lautete, die Bahnhofstrasse in Zürich im Fantasy-Stil in eine Dschungellandschaft mit Affen, exotischen Tieren und Pflanzen zu verwandeln.

Microsoft betreibt eine eigene Software zur Bilderzeugung mittels KI. Sie ist seit März 2023 für die Öffentlichkeit verfügbar, doch so richtig interessant wurde Image Creator erst vor ein paar Tagen. Microsoft hat nämlich ein wichtiges Update vorgenommen. Image Creator basiert nun auf Dall-e 3.

Das ist das neueste Modell zur Bilderzeugung, entwickelt von Open AI. Es soll für die zahlenden Kunden noch im Verlauf des Oktober zugänglich gemacht werden, doch via Microsoft lässt es sich jetzt schon ausprobieren – kostenlos. Der Zugang erfolgt über bing.com/images/create und erfordert ein Log-in mit einem Microsoft-Account. Ob die Nutzung dauerhaft gratis bleiben wird, ist aber fraglich: Viele der KI-Werkzeuge wurden nach einer Testphase kostenpflichtig oder für Gratisnutzerinnen und -nutzer eingeschränkt.

Realistischer und künstlerisch vielseitig

Die neue Version liefert gemäss Microsoft einen höheren Grad an Realismus. Sie kann mit detaillierteren Beschreibungen umgehen und liefere eine grössere kreative Bandbreite. Es ist möglich, über die Beschreibung eine Kunstrichtung oder einen Stil vorzugeben.

Die Vorgabe lautete, eine lächelnde Tomate mit einem Regenschirm um den Pfahl einer Strassenlaterne tanzen zu lassen, so wie das Gene Kelly im Film «Singing in the Rain» tut. Dazu sollte ein Peperone Applaus spenden.

Open AI als Entwickler des Softwaremodells verspricht, es sei verständiger als sein Vorgänger. Die neue Version soll ein bekanntes Manko ausräumen: Die derzeitigen Systeme neigen dazu, bestimmte Vorgaben zu ignorieren. Um das zu umgehen, mussten Nutzerinnen und Nutzer lernen, ihre Ideen auf eine bestimmte Art zu formulieren. Manche nennen das «Prompt Engineering» – es geht aber einfach darum, seine Anweisungen möglichst klar, mit ausreichend Kontext und ohne Widerspruch zu formulieren.

Auch surrealen Motiven gewachsen

Damit Dall-e 3 keine Elemente weglässt, setzt Open AI auf einen Trick: Der neue Bildgenerator arbeitet mit der Text-KI Chat-GPT zusammen: «Sie können Chat-GPT als Brainstorming-Partner und zur Verfeinerung Ihrer Eingabeaufforderungen nutzen.» Der Chatbot liefert dann die Beschreibung der Bildidee auf eine Weise, wie sie möglichst effektiv umgesetzt werden kann.

Das Matterhorn als Dessert: Bislang sind die KIs an einer solchen Aufgabe gescheitert, doch Dall-e 3 bewältigt sie mit Bravour.

Einige Testläufe mit Image Creator zeigen, dass Dall-e 3 mit abstrakten und surrealen Motiven viel besser zurechtkommt als sein Vorgänger. Bei einem früheren Test haben wir mehrere KIs aufgefordert, ein «Matterhorn aus Schokolade mit einer Haube aus Rahm» zu erzeugen, was die Programme restlos überfordert hat – die klassische Form des Matterhorns war bei keiner der Kreationen zu erkennen. Im Vergleich dazu liefert Dall-e 3 ein brillantes Ergebnis, bei dem sowohl der Berg als auch das Dessert zu erkennen ist. Dass aus dem Rahm eher eine Vanillecreme geworden ist, werten wir als künstlerische Freiheit – und als Notwendigkeit, damit die Bergspitze als solche erkennbar ist.