Ihr Browser ist veraltet. Bitte aktualisieren Sie Ihren Browser auf die neueste Version, oder wechseln Sie auf einen anderen Browser wie ChromeSafariFirefox oder Edge um Sicherheitslücken zu vermeiden und eine bestmögliche Performance zu gewährleisten.

Zum Hauptinhalt springen

Neue Software GPT-4o
Auf Befehl beginnt Chatbot Omni zu singen und wird sarkastisch

Die neue Version von Chat-GPT nimmt über die Kamera die Umgebung wahr. In der Präsentation von Open AI reagiert die KI auch auf den Streich, der die Kollegin ihrem Kollegen spielt – allerdings erst, nachdem er danach fragt.
Jetzt abonnieren und von der Vorlesefunktion profitieren.
BotTalk

In den letzten Tagen gab es so viele Neuigkeiten zur künstlichen Intelligenz, dass selbst wichtige Meldungen untergingen. Unter anderem die: Claude 3 ist endlich auch in Europa frei zugänglich. Claude ist ein massgeblicher Konkurrent von Chat-GPT, der ähnlich gute Antworten liefert.

Für mehr Furore gesorgt hat Google. Der Konzern zündet diese Woche an seiner Entwicklerkonferenz ein wahres KI-Feuerwerk: Veo erzeugt anhand von Textbeschreibungen Videos von einer Minute oder länger und versteht auch inhaltliche Vorgaben wie «Zeitraffer». Googles Chatbot Gemini wird bald per Kamera und Mikrofon direkt mit Nutzerinnen und Nutzern interagieren können.

Gemini: Google-Suche bald mit KI

Vor allem aber rüstet Google die Websuche mit künstlicher Intelligenz auf. Die Gemini-KI ergänzt die klassischen Suchresultate mit einer kurzen Antwort, die direkt auf Inhalte im Web verweisen wird. Google versucht den Spagat, das lukrative Geschäftsmodell mit der Werbung in der Websuche aufrechtzuerhalten und gleichzeitig gegenüber den Rivalen nicht ins Hintertreffen zu geraten. Denn Microsoft setzt bei Bing Copilot längst KI ein, und Perplexity.ai ist ein Chatbot, der seine Antworten mit Resultaten aus dem Web anreichert.

Hier wird Inhalt angezeigt, der zusätzliche Cookies setzt.

An dieser Stelle finden Sie einen ergänzenden externen Inhalt. Falls Sie damit einverstanden sind, dass Cookies von externen Anbietern gesetzt und dadurch personenbezogene Daten an externe Anbieter übermittelt werden, können Sie alle Cookies zulassen und externe Inhalte direkt anzeigen.

GPT-4o: Ist gratis und setzt neue Massstäbe

Doch selbst Googles wegweisende Ankündigungen verblassen angesichts der zwei Paukenschläge von Open AI. Der KI-Pionier hat am Montag die neue Version von Chat-GPT vorgestellt. Das neue Modell GPT-4o heisst auch Omni, weil es nicht nur mit Text, sondern auch mit Bildern, Sprache und Video umgehen kann und diese Interaktionsformen nahtlos verbindet.

Erster Paukenschlag: Das neue Omni-Modell steht gratis zur Verfügung. Die neuen Sprachfunktionen stehen jedoch nur den zahlenden Kundinnen und Kunden zur Verfügung. Sie sind bisher nicht öffentlich nutzbar, sondern sollen in den nächsten Wochen freigeschaltet werden.

Zweiter Paukenschlag: Die Vorführung von Open AI lässt keinen Zweifel daran, dass bei der Weiterentwicklung der künstlichen Intelligenz Omni die Massstäbe setzt. Omni ebnet den Weg für einen digitalen Assistenten, mit dem sich ein Gespräch fast auf Augenhöhe führen lässt. Als künstlicher Begleiter wird er wohl auch in der Lage sein, das menschliche Gegenüber emotional zu erfassen, eine bestimmte Persönlichkeit einzunehmen und Empathie zu simulieren.

Hier wird Inhalt angezeigt, der zusätzliche Cookies setzt.

An dieser Stelle finden Sie einen ergänzenden externen Inhalt. Falls Sie damit einverstanden sind, dass Cookies von externen Anbietern gesetzt und dadurch personenbezogene Daten an externe Anbieter übermittelt werden, können Sie alle Cookies zulassen und externe Inhalte direkt anzeigen.

Chat-GPT hat schon im letzten September gelernt, per Sprache zu interagieren. Doch die jüngsten Verbesserungen sind eindrucksvoll: Omni beherrscht die Simultanübersetzung in Echtzeit und vermittelt ein Gespräch zwischen einer englisch und einer italienisch sprechenden Person. In der Präsentation gibt die KI einen Spielleiter, der im Duktus eines überdrehten Schiedsrichters eine Partie Schere, Stein, Papier zwischen zwei menschlichen Spielern überwacht. Und er coacht eine Person für ein Bewerbungsgespräch: «Du solltest deine Frisur noch etwas richten.»

Vielfältige Ausdrucksmöglichkeiten

Das alles wird möglich, weil Omni via Kamera «sehen» kann. Die KI erhält die Möglichkeit, die Umgebung und das Umfeld der Anwenderinnen und Anwender einzubeziehen. Sie kann diese beschreiben und tut das während der Demonstration auf Aufforderung sogar singend. Omni ist in der Lage, den Gemütszustand von Menschen zu erfassen und darauf einzugehen.

Noch lassen sich nicht alle neuen Funktionen von Chat-GPT Omni nutzen. Die Erkennung des Gefühlszustands funktioniert aber bereits.

Bemerkenswert ist schliesslich, wie natürlich die KI-Stimmen jetzt klingen. Von der Monotonie, die wir noch von Siri her gewohnt sind, ist nichts mehr zu hören. Omni ist auch in der Lage, bestimmte Gefühlslagen zu imitieren. In der Präsentation soll der Bot auf alles mit Sarkasmus reagieren. Diesen Vorschlag quittiert er mit deutlich hörbarer Verachtung und dem Satz: «Das klingt sooo tooolll, und es ist überhaupt nicht anstrengend!»

Vielleicht bald ins iPhone integriert

Allerdings: Auch GPT-4o alias Omni ist nur eine Maschine, die nicht den Hauch einer Ahnung vom Menschsein hat. Aber als Imitator hat er noch einmal gewaltig zugelegt. Szenarien, in denen menschliche Benutzerinnen und Benutzer vergessen, dass sie es mit einem hochgezüchteten technischen System und nicht mit einem von uns zu tun haben, werden realistischer.

Wohin das führen wird? Es gibt Gerüchte, wonach Apple derzeit Verhandlungen führt, um Chat-GPT ins iPhone zu integrieren. Es könnte somit gut sein, dass unsere Smartphones in fünf Jahren kaum mehr wiederzuerkennen sind.