Multimedia mit künstlicher Intelligenz: Wie der Eiffelturm plötzlich in Zürich landet

Multimedia mit künstlicher Intelligenz
Wie der Eiffelturm plötzlich in Zürich landet

Ob es um Präsentationen, Videos oder Audioproduktionen geht: Die künstliche Intelligenz hilft, Ideen zu realisieren – manchmal mit mehr, manchmal mit weniger Talent.

Matthias Schüssler

Publiziert: 23.08.2023, 10:03

Zürich, per KI leicht verändert.
Foto: Original Sonyuser/Pixabay; Bearbeitung: Adobe Firefly

Sie feiern gerade ihren ersten Geburtstag – jene künstlichen Intelligenzen, die anhand einer kurzen Beschreibung ein passendes Bild erschaffen. Vor einem Jahr sind Midjourney, Dall-e 2 und Stable Diffusion auf der Bildfläche erschienen und haben unseren Glauben erschüttert, dass Kreativität etwas Urmenschliches sei. Ob diese KIs tatsächlich schöpferische Talente haben oder bloss wahnsinnig gute Imitatoren sind, bleibt fraglich. Doch eines ist unbestreitbar: Nützliche Hilfsmittel sind sie allemal – und im letzten Jahr sind viele KI-Werkzeuge für die kreative Arbeit hinzugekommen.

Bilder erweitern

Eine Anwendung mit hohem praktischem Wert ist die Bilderweiterung: Wenn ein Foto oder Bild einen zu knappen Ausschnitt aufweist, ergänzt der Algorithmus es in alle Richtungen und vergrössert die sichtbare Szene. Das erhöht die Flexibilität, wenn ein Bild für Drucksachen oder eine Website verwendet werden soll. In Photoshop gehört das sogenannte «generative Erweitern» demnächst zum Standard-Funktionsumfang.

Es gibt die Bilderweiterung auch als Onlineanwendung im Web: Unter runwayml.com finden Sie das Modul «Expand Image» nach der Anmeldung unter «Image > Edit Image», das Sie für ein paar Experimente kostenlos benutzen dürfen – für intensive Nutzung braucht es ein Abo ab 12 Dollar pro Monat.

Nach dem Hochladen Ihres Bildes erhalten Sie vier Vorschläge. Sie können auch mittels einer Beschreibung spezifizieren, wie das Bild erweitert werden soll. Das Ausdehnen des Motivs funktioniert besonders gut bei musterartigen Hintergründen wie Himmel oder Grasboden. Wenn Personen oder Gebäude dazu erfunden werden, ist das Resultat nicht immer überzeugend.

1 / 7

Die vier erweiterten Varianten, die Runwayml.com bereithält: Zwei Varianten setzen das Motiv als Kunstwerk in Szene.

Das Original: Albert Ankers «Der Schulspaziergang» von 1872. Der Junge links, der scheinbar mit einem Handy fotografiert, gehört zum Originalmotiv.

Foto: PD

Ansprechende Folien für Präsentationen

Wer in Präsentationsprogrammen wie Powerpoint oder Google Slides regelmässig an ansprechenden Darstellungen scheitert, der sollte sich von Slidesai.io helfen lassen: Diese Software verwandelt einen fortlaufenden Text in eine Präsentation, wobei Nutzerinnen und Nutzer am Anfang einen Stil auswählen und die Zahl der Folien festlegen.

Das Resultat ist wider Erwarten ansprechend: Die optische Aufmachung ist abwechslungsreich und besser, als wenn eine statische Vorlage zum Einsatz gekommen wäre. Wie ein ausführlicher Test zeigt, braucht es eine Nachbearbeitung: Die Textelemente, die aus dem Text extrahiert wurden, vertragen eine Überarbeitung, und die grafischen Elemente passen meist nicht. Trotzdem: Die Zeitersparnis kann beträchtlich sein.

1 / 2

Das Ausgangsmaterial für die Präsentation ist ein simpler Fliesstext.

Eine der automatisch generierten Folien.

Fotos: Alle Screenshots schü.

Videosequenzen erzeugen

Satiriker und notorisches KI-Spielkind Patrick Karpiczenko hat im Juli einen viralen Hit gelandet. Karpi hat einen Trailer für einen fiktiven Heidi-Film lanciert, der auf Twitter fast 19 Millionen Mal angezeigt worden ist. Wie von den Bild-Algorithmen bekannt, erzeugt die Software anhand einer Beschreibung eine künstliche Videosequenz. In dieser bewegen Menschen oder Tiere ihre Körper oder Extremitäten; etwa so, wie wenn ein hibbeliges Kind ruhig stehen müsste. Ausserdem bewegen sich Pflanzen im Wind, und simulierte Kamerabewegungen sorgen für Dynamik. Komplexe, choreografierte Bewegungsabläufe sind bislang nicht möglich. Trotzdem: Auch die subtilen Bewegungen erzeugen Aufmerksamkeit. Ausprobieren lässt sich die Text-zu-Video-Technik unter Runwayml.com; die ersten Versuche sind kostenlos.

Hier wird Inhalt angezeigt, der zusätzliche Cookies setzt.

An dieser Stelle finden Sie einen ergänzenden externen Inhalt. Falls Sie damit einverstanden sind, dass Cookies von externen Anbietern gesetzt und dadurch personenbezogene Daten an externe Anbieter übermittelt werden, können Sie alle Cookies zulassen und externe Inhalte direkt anzeigen.

Eine Stimme klonen

Auch der akustische Bereich bleibt nicht KI-frei. Eine eindrückliche Demonstration der Möglichkeiten liefert Resemble.ai: Nachdem der Proband 25 vorgegebene Sätze eingesprochen hat, erzeugt der Algorithmus eine digitale Repräsentation der Stimme. Dieser stimmliche Klon spricht dann beliebige Texte ein, die nach ein paar Sekunden als Audiodatei heruntergeladen werden können. Für eine lebensechte Darbietung lässt sich die Sprechgeschwindigkeit einzelner Passagen variieren. Im Editor können Pausen vorgegeben und Betonung und Stimmhöhe angepasst werden.

Wie ein Selbstversuch zeigt, ist das Resultat zwar nicht hundertprozentig lebensecht, aber nahe genug an der Originalstimme. Die Ähnlichkeit ist gross genug für ein metaphysisches Gruseln: Es ist ungewohnt und sogar für manche Leute auch übergriffig, wenn der Computer mit der eigenen Stimme spricht. Dennoch gibt es ein Rationalisierungspotenzial: Mit Resemble.ai lassen sich nicht nur Sprachaufnahmen erstellen, ohne dass sich jemand ins Studio bemühen muss. Die Lokalisierungsfunktion erlaubt es, eine geklonte Stimme akzentfrei in einer Sprache sprechen zu lassen, die deren Besitzer nicht beherrscht.

Einige Versuche können gratis unternommen werden, für die produktive Verwendung verlangt Resemble 0,6 US-Cent pro Sekunde erzeugtes Audio.

Audioaufnahmen wie Texte bearbeiten

Die Verschriftlichung von Gesprächsaufnahmen gehört zu den Kernkompetenzen der KI (mehr dazu in unseren Tipps «Wie Sie KI produktiv und kreativ im Alltag einsetzen»). Sie erspart uns nicht nur das Abtippen von Interviews und Sitzungen, sondern vereinfacht auch die Audiobearbeitung, beispielsweise für Podcasts. Auf Descript.com gibt es das Modul «Remove Filler Words», das dazu da ist, aus einer Aufnahme die «Äh» und Füllwörter wie «also», «quasi», «eigentlich» etc. zu entfernen. Das geschieht in einem Editor, der wie eine Textverarbeitung aussieht. In dem lassen sich Wörter oder auch Satzteile oder ganze Passagen markieren und löschen, woraufhin sie aus der Aufnahme entfernt werden. Ein Test mit einer englischsprachigen Aufnahme zeigt: Das ist massiv einfacher als die klassische Methode mit einem Audioeditor. Aber die Versuchung ist gross, die Aufnahmen zu stark zu bearbeiten, was ihnen ihre Natürlichkeit nimmt.

Eine Stunde Audiobearbeitung pro Monat ist gratis, für mehr ist ein Abo ab 12 Dollar pro Monat nötig.

Tonaufnahmen bearbeiten wie in Word – mit der Einschränkung, dass nur gelöscht, aber nichts hinzugefügt werden kann.
Foto: Screenshot schü

Teile eines Fotos per KI ersetzen

Fast noch eindrücklicher als das eingangs beschriebene Erweitern des Bildes ist die Möglichkeit, Elemente innerhalb eines Bildes mit KI-Hilfe auszutauschen. Dieses generative Füllen wird bald zu den Standardfunktionen von Bildbearbeitungen wie Photoshop gehören. Sie lässt sich schon jetzt über Adobes KI-Exermentierwiese Firefly (siehe «Jetzt mischt auch Adobe bei den kreativen KIs mit») kostenlos ausprobieren.

Die Anwendung ist denkbar simpel: Der Teil des Bildes, den die KI ersetzen soll, wird mit dem Radier-Werkzeug entfernt – beim Beitragsbild oben das Fraumünster. Dann geben wir eine Beschreibung in Textform, wie der gelöschte Bereich ersetzt werden soll. Die Software erzeugt daraufhin verschiedene Varianten, die verfeinert und mit den klassischen Mitteln der Bildbearbeitung angepasst werden können.

1 / 3

Und so wird ein bestehendes Bild mit einem KI-Element angereichert: Der zu ersetzende Bereich wird gelöscht und über eine Beschreibung erklärt, was die künstliche Intelligenz dazuerfinden soll.

Im Original hielt der Autor einen Laptop in der Hand.

Spoiler: Die Kiste mit dem Tiger ist nicht echt.

Foto: Matthias Schüssler, Adobe Firefly

Matthias Schüssler ist Digitalredaktor und berichtet über Neuigkeiten der Tech-Konzerne, Smartphone, Computer und Gadgets und gibt Hilfestellung für den souveränen Umgang mit künstlicher Intelligenz, Datensicherheit und den digitalen Anforderungen des Alltags.Mehr Infos@MrClicko

Fehler gefunden?Jetzt melden.