Künstliche IntelligenzChat-GPT lernt sprechen
Ein grosser Schritt zu (fast) natürlichen Dialogen mit der Maschine: Open AI bringt seinem Chatbot Hören und Sprechen bei.
«Chat-GPT kann jetzt sehen, hören und sprechen»: Diese Ankündigung hat Open AI gestern in einem Post im Blog des Unternehmens gemacht. Sie ist zwar etwas hochgegriffen – namentlich, was die Sehfähigkeit angeht: Der Chatbot kann hochgeladene Bilder analysieren und Sehenswürdigkeiten erkennen. Chat-GPT soll auch in der Lage sein, Matheprobleme anhand von Fotos zu lösen und zu einer Ansicht des Kühlschrankinhalts passende Rezepte vorschlagen. Eine ähnliche Funktion hat letzte Woche auch Google für seine künstliche Intelligenz (KI) Bard vorgestellt.
Was das Sehen und das Sprechen angeht, soll die aber genauso funktionieren, wie wir uns einen Dialog vorstellen: Statt unsere Anfrage zu tippen, stellen wir sie in gesprochener Form und erhalten auch die Antwort mittels Sprache. Ein Beispiel vermittelt einen Eindruck, wie sich das anhören könnte.
Hier wird Inhalt angezeigt, der zusätzliche Cookies setzt.
An dieser Stelle finden Sie einen ergänzenden externen Inhalt. Falls Sie damit einverstanden sind, dass Cookies von externen Anbietern gesetzt und dadurch personenbezogene Daten an externe Anbieter übermittelt werden, können Sie alle Cookies zulassen und externe Inhalte direkt anzeigen.
Im Beispiel fragt die (menschliche) Fragestellerin nach einer Gutenachtgeschichte über einen Igel namens Larry, die Chat-GPT mit einer weiblichen Stimme zum Besten gibt und anhand weiterer Fragen zu Larrys Freunden und seinen Schlafgewohnheiten weiterentwickelt.
Spracherkennung versteht Schweizerdeutsch
Für die Spracherkennung ist Whisper zuständig: Das ist eine weitere Entwicklung zur Verschriftlichung von Sprachaufnahmen, die im Vergleich zu ähnlichen Produkten hervorragend abschneidet: Englisch erkennt sie unter optimalen Umständen fast fehlerfrei. Auch Deutsch und sogar Schweizer Dialekte sind ihr geläufig, auch wenn die Erkennungsqualität deutlich schlechter ist.
Trotzdem besteht Grund zur Hoffnung, dass mit Chat-GPT demnächst auch ein Schwätzchen auf Mundart möglich sein wird – allerdings mit der Einschränkung, dass derzeit noch Unklarheit darüber herrscht, wie gut die nicht englische Sprachausgabe ist. Für die Sprachausgabe dürfen Nutzerinnen und Nutzer zwischen fünf Stimmen auswählen. Zwei davon klingen männlich, zwei weiblich, eine androgyn, und bei deren Benennung wollte sich Open AI bezüglich des Geschlechts nicht festlegen.
Um sich eine Antwort auszudenken, braucht der Chatbot etwas länger als ein Mensch.
Es steht ausser Zweifel, dass diese neuen Sprachfähigkeiten einen riesigen Schritt für die digitalen Assistenten bedeuten: Open AI setzt die Latte ungleich höher als das, was wir uns von Siri, Amazons Alexa, Googles Assistant oder Microsofts Cortana gewöhnt sind. Komplett natürlich hört sich ein solcher Dialog mit der Maschine allerdings auch jetzt noch nicht an: Nach der Frage braucht der Chatbot im Schnitt etwas länger als ein Mensch, um sich seine Antwort auszudenken – dafür kommt die dann ganz ohne Füllwörter und Denkpausen aus.
Trotzdem zeichnen sich auch ganz neue Probleme ab: Die Sprachfähigkeiten dieser Bots eröffnen neuen Betrugsmaschen Tür und Tor, indem sich Stimmen bekannter Personen quasi in Echtzeit fälschen lassen. Dieses Problem benennt Open AI, bleibt bei den Lösungen aber relativ vage: «Aufgrund der Bedenken verwenden wir diese Technologie für einen speziellen Anwendungsfall, den Sprachchat. Er wurde mit Sprechern entwickelt, mit denen wir direkt zusammenarbeiten.»
Automatisch übersetzte Podcasts
Open AI verweist auch auf eine weitere Anwendung: Spotify verwendet die neue Technologie, um Podcasts automatisch in andere Sprachen zu übersetzen. In einem Pilotprojekt werden einzelne Podcast-Episoden von englischsprachigen Urhebern (Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons und Steven Bartlett) auf Spanisch, Französisch und Deutsch übertragen, wobei die Software die jeweiligen Stimmen mehr oder weniger überzeugend imitiert.
Ob sich in einer Übersetzung per KI die Anmutung und der Reiz des Originals erhalten lassen, ist derzeit eher fraglich. Noch völlig offen ist, ob die Übermacht der englischsprachigen Produktionen noch verstärkt wird oder ob es vielmehr eine Chance für Podcaster aus kleinen Sprachgebieten ist, sich ein grösseres Publikum zu erschliessen. Das wird massgeblich davon abhängen, wie gut Whisper die ursprüngliche Sprache erkennt und übersetzen kann. Da deuten die Anzeichen jedoch leider darauf hin, dass die exotischeren Sprachen einen Nachteil haben.
Diese neuen Funktionen von Chat-GPT werden in den nächsten zwei Wochen für die bezahlenden Nutzerinnen und Nutzer freigeschaltet. Alle anderen Anwendergruppen sollen wenig später zum Zug kommen. Für die Sprachfunktionen müssen die iPhone- und die Android-App benutzt werden; die Bildanalyse wird auch im Browser zur Verfügung stehen.
Fehler gefunden?Jetzt melden.