Chat-GPT lernt sprechen: Künstliche Intelligenz erweitert Fähigkeiten

Künstliche Intelligenz
Chat-GPT lernt sprechen

Ein grosser Schritt zu (fast) natürlichen Dialogen mit der Maschine: Open AI bringt seinem Chatbot Hören und Sprechen bei.

Matthias Schüssler

Publiziert: 26.09.2023, 21:04

Bald keine Zukunftsmusik mehr: Angeregte Gespräche zwischen Mensch und Maschine.
Illustration: Adobe Firefly

«Chat-GPT kann jetzt sehen, hören und sprechen»: Diese Ankündigung hat Open AI gestern in einem Post im Blog des Unternehmens gemacht. Sie ist zwar etwas hochgegriffen – namentlich, was die Sehfähigkeit angeht: Der Chatbot kann hochgeladene Bilder analysieren und Sehenswürdigkeiten erkennen. Chat-GPT soll auch in der Lage sein, Matheprobleme anhand von Fotos zu lösen und zu einer Ansicht des Kühlschrankinhalts passende Rezepte vorschlagen. Eine ähnliche Funktion hat letzte Woche auch Google für seine künstliche Intelligenz (KI) Bard vorgestellt.

Was das Sehen und das Sprechen angeht, soll die aber genauso funktionieren, wie wir uns einen Dialog vorstellen: Statt unsere Anfrage zu tippen, stellen wir sie in gesprochener Form und erhalten auch die Antwort mittels Sprache. Ein Beispiel vermittelt einen Eindruck, wie sich das anhören könnte.

Hier wird Inhalt angezeigt, der zusätzliche Cookies setzt.

An dieser Stelle finden Sie einen ergänzenden externen Inhalt. Falls Sie damit einverstanden sind, dass Cookies von externen Anbietern gesetzt und dadurch personenbezogene Daten an externe Anbieter übermittelt werden, können Sie alle Cookies zulassen und externe Inhalte direkt anzeigen.

Im Beispiel fragt die (menschliche) Fragestellerin nach einer Gutenachtgeschichte über einen Igel namens Larry, die Chat-GPT mit einer weiblichen Stimme zum Besten gibt und anhand weiterer Fragen zu Larrys Freunden und seinen Schlafgewohnheiten weiterentwickelt.

Spracherkennung versteht Schweizerdeutsch

Für die Spracherkennung ist Whisper zuständig: Das ist eine weitere Entwicklung zur Verschriftlichung von Sprachaufnahmen, die im Vergleich zu ähnlichen Produkten hervorragend abschneidet: Englisch erkennt sie unter optimalen Umständen fast fehlerfrei. Auch Deutsch und sogar Schweizer Dialekte sind ihr geläufig, auch wenn die Erkennungsqualität deutlich schlechter ist.

Trotzdem besteht Grund zur Hoffnung, dass mit Chat-GPT demnächst auch ein Schwätzchen auf Mundart möglich sein wird – allerdings mit der Einschränkung, dass derzeit noch Unklarheit darüber herrscht, wie gut die nicht englische Sprachausgabe ist. Für die Sprachausgabe dürfen Nutzerinnen und Nutzer zwischen fünf Stimmen auswählen. Zwei davon klingen männlich, zwei weiblich, eine androgyn, und bei deren Benennung wollte sich Open AI bezüglich des Geschlechts nicht festlegen.

Um sich eine Antwort auszudenken, braucht der Chatbot etwas länger als ein Mensch.

Es steht ausser Zweifel, dass diese neuen Sprachfähigkeiten einen riesigen Schritt für die digitalen Assistenten bedeuten: Open AI setzt die Latte ungleich höher als das, was wir uns von Siri, Amazons Alexa, Googles Assistant oder Microsofts Cortana gewöhnt sind. Komplett natürlich hört sich ein solcher Dialog mit der Maschine allerdings auch jetzt noch nicht an: Nach der Frage braucht der Chatbot im Schnitt etwas länger als ein Mensch, um sich seine Antwort auszudenken – dafür kommt die dann ganz ohne Füllwörter und Denkpausen aus.

Trotzdem zeichnen sich auch ganz neue Probleme ab: Die Sprachfähigkeiten dieser Bots eröffnen neuen Betrugsmaschen Tür und Tor, indem sich Stimmen bekannter Personen quasi in Echtzeit fälschen lassen. Dieses Problem benennt Open AI, bleibt bei den Lösungen aber relativ vage: «Aufgrund der Bedenken verwenden wir diese Technologie für einen speziellen Anwendungsfall, den Sprachchat. Er wurde mit Sprechern entwickelt, mit denen wir direkt zusammenarbeiten.»

Automatisch übersetzte Podcasts

Open AI verweist auch auf eine weitere Anwendung: Spotify verwendet die neue Technologie, um Podcasts automatisch in andere Sprachen zu übersetzen. In einem Pilotprojekt werden einzelne Podcast-Episoden von englischsprachigen Urhebern (Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons und Steven Bartlett) auf Spanisch, Französisch und Deutsch übertragen, wobei die Software die jeweiligen Stimmen mehr oder weniger überzeugend imitiert.

Ob sich in einer Übersetzung per KI die Anmutung und der Reiz des Originals erhalten lassen, ist derzeit eher fraglich. Noch völlig offen ist, ob die Übermacht der englischsprachigen Produktionen noch verstärkt wird oder ob es vielmehr eine Chance für Podcaster aus kleinen Sprachgebieten ist, sich ein grösseres Publikum zu erschliessen. Das wird massgeblich davon abhängen, wie gut Whisper die ursprüngliche Sprache erkennt und übersetzen kann. Da deuten die Anzeichen jedoch leider darauf hin, dass die exotischeren Sprachen einen Nachteil haben.

Diese neuen Funktionen von Chat-GPT werden in den nächsten zwei Wochen für die bezahlenden Nutzerinnen und Nutzer freigeschaltet. Alle anderen Anwendergruppen sollen wenig später zum Zug kommen. Für die Sprachfunktionen müssen die iPhone- und die Android-App benutzt werden; die Bildanalyse wird auch im Browser zur Verfügung stehen.

Matthias Schüssler ist Digitalredaktor und berichtet über Neuigkeiten der Tech-Konzerne, Smartphone, Computer und Gadgets und gibt Hilfestellung für den souveränen Umgang mit künstlicher Intelligenz, Datensicherheit und den digitalen Anforderungen des Alltags.Mehr Infos@MrClicko

Fehler gefunden?Jetzt melden.

Künstliche Intelligenz
Chat-GPT lernt sprechen

Spracherkennung versteht Schweizerdeutsch

Automatisch übersetzte Podcasts

Neuer Chef der VerwaltungHorgen hat nun einen Geschäftsführer

AboWährend Sanierung in ZollikonSchwimmbad Fohrbach bezahlt Restbeträge von Abos zurück

AboAllgemeinbildungLehrabschluss ohne Prüfung: Eine Reform sorgt für Streit

AboCircus Knie feiert PremiereDer Nationalzirkus punktet mit dem Nachwuchs und viel Frauenpower

AboRückläufige RübenproduktionDarum ist in Schweizer Produkten heute weniger Schweizer Zucker drin

Weinlese 2024Zweitschlechteste Ernte der letzten 50 Jahre

AboZwischennutzung auf KasernenarealEin Zürcher Verein setzt auf nachhaltige Mode

AboKrise in der VelobrancheDie Umsätze mit Velos gehen stark zurück – der Corona-Boom ist definitiv vorbei

«Zürichsee-Stonehenge»Mysteriöse Steinhügel vor Männedorf werfen Fragen auf

AboZwei Traditionen vereintRäbechilbi-Böögg aus Richterswil ist am Sechseläuten dabei

AboDom Perignon vom Reichsmarschall

AboQuaggamuschel im Zürichsee«Kommt viel zu spät» – die neue Putzpflicht ist bei Seglern umstritten

AboCafés in der ZürichseeregionHier kann man bei Kaffee und Kuchen die Frühlingssonne geniessen

AboVon Agglo in oberste LigaFast 5 Millionen für eine 4,5-Zimmer-Wohnung: Preise in Horgen legen enorm zu

MeinungMeta AIBei Whatsapp nervt die KI, bei Facebook die Deepfake-Flut

Weltweite StörungSpotify-Nutzer kämpfen mit Verbindungsproblemen

4chan gehacktIst jetzt Schluss mit Memes und Mobbing?

Konkurrenz für Musks XChatGPT-Erfinder entwickelt anscheinend soziales Netzwerk

VideoAboVeo 2 im TestGoogles Videogenerator ist ab sofort verfügbar – auch in der Schweiz

Neue Funktion von Chat-GPTKI-Actionfiguren im Trend: So macht man selbst so ein Manöggeli

Künstliche Intelligenz – Chat-GPT lernt sprechen

Spracherkennung versteht Schweizerdeutsch

Automatisch übersetzte Podcasts

Neuer Chef der VerwaltungHorgen hat nun einen Geschäftsführer

AboWährend Sanierung in ZollikonSchwimmbad Fohrbach bezahlt Restbeträge von Abos zurück

AboAllgemeinbildungLehrabschluss ohne Prüfung: Eine Reform sorgt für Streit

AboCircus Knie feiert PremiereDer Nationalzirkus punktet mit dem Nachwuchs und viel Frauenpower

AboRückläufige RübenproduktionDarum ist in Schweizer Produkten heute weniger Schweizer Zucker drin

Weinlese 2024Zweitschlechteste Ernte der letzten 50 Jahre

AboZwischennutzung auf KasernenarealEin Zürcher Verein setzt auf nachhaltige Mode

AboKrise in der VelobrancheDie Umsätze mit Velos gehen stark zurück – der Corona-Boom ist definitiv vorbei

«Zürichsee-Stonehenge»Mysteriöse Steinhügel vor Männedorf werfen Fragen auf

AboZwei Traditionen vereintRäbechilbi-Böögg aus Richterswil ist am Sechseläuten dabei

AboDom Perignon vom Reichsmarschall

AboQuaggamuschel im Zürichsee«Kommt viel zu spät» – die neue Putzpflicht ist bei Seglern umstritten

AboCafés in der ZürichseeregionHier kann man bei Kaffee und Kuchen die Frühlingssonne geniessen

AboVon Agglo in oberste LigaFast 5 Millionen für eine 4,5-Zimmer-Wohnung: Preise in Horgen legen enorm zu

MeinungMeta AIBei Whatsapp nervt die KI, bei Facebook die Deepfake-Flut

Weltweite StörungSpotify-Nutzer kämpfen mit Verbindungsproblemen

4chan gehacktIst jetzt Schluss mit Memes und Mobbing?

Konkurrenz für Musks XChatGPT-Erfinder entwickelt anscheinend soziales Netzwerk

VideoAboVeo 2 im TestGoogles Video­generator ist ab sofort verfügbar – auch in der Schweiz

Neue Funktion von Chat-GPTKI-Actionfiguren im Trend: So macht man selbst so ein Manöggeli

Künstliche Intelligenz
Chat-GPT lernt sprechen

VideoAboVeo 2 im TestGoogles Videogenerator ist ab sofort verfügbar – auch in der Schweiz