Auf dem Weg zum KI-Sommerhit (5/6)Tag 5: Avatar Kevin singt unseren Song
Ein richtiger Sommerhit braucht Gesang: Wir kaufen uns deshalb einen singenden Avatar und testen, was er so drauf hat – er klingt erstaunlich echt.
Mein Assistent Steff und ich sind uns einig, dass es unserem Sommerhit gut stehen würde, wenn dieser mit leichtem Gesang auftrumpfen könnte. Der erste Versuch, über die KI einen dazugehörigen, sommerlichen Text auf Deutsch zu verfassen, ist eher nicht geglückt. Viel besser gelang Chat-GPT dies in der Sommerhitsprache Spanisch: «Corazón vacío / Dolor emergente», das klang bereits wie Musik in unseren Ohren, und wir wedelten auf einmal ganz beschwingt durchs Kellerstudio. Also müsste uns die künstliche Intelligenz nur noch einen geeigneten Sänger zur Verfügung stellen.
Die KI irrt sich
Das ist nicht ganz so einfach, wie es den Anschein macht. Zwar gibt es eine ganze Menge an Generatoren, welche Stimmen imitieren können. Der berühmt und berüchtigt gewordene Song von Drake, den dieser gar nie gesungen hat, stammt jedoch bloss von einem Tool, das einer eingesungen Gesangsspur die Stimme von Drake quasi überzustülpen imstande war. Auf die Anfrage, ob es ein singendes KI-Tool gebe, antwortet selbst die KI mit negativem Bescheid: «Eine KI, die tatsächlich singen kann, wäre eine, die menschenähnliche Gesänge erzeugt. Dies erfordert Technologien wie Text-zu-Sprache und Gesangssynthese. Im Moment gibt es noch keine weitverbreitete KI, die menschenähnliche Gesänge erzeugen kann.»
Da dieser viel gerühmte Chat-GPT offenbar seit 2021 keine neue Datenfütterung mehr erhalten hat, irrt er sich. Steff hat nach einer längeren Surfsession für 140 Franken ein nigelnagelneues Programm der Firma Dreamtonics heruntergeladen, das genau dies kann: Es singt. Und es ist somit der wahr gewordene Traum des menschenscheuen Musik-Nerds, der sich bisher – in Ermangelung an singenden Menschenkontakten – zum Erzeugen instrumentaler Elektromusik in seinem Musikkeller verschanzt hat.
Man kann dem Sing-Avatar auch sagen, wie stark er beim Singen schnaufen und wie resolut sein Vibrato und wie hoch die Intensität seines Gesangs sein soll.
Unser Sing-Avatar heisst Kevin und ist einer der wenigen im Firmensortiment, der der englischen Singsprache mächtig und nicht im Pathos-Metal-Bereich tätig ist. Die meisten anderen singen auf Mandarin oder Japanisch, was folgerichtig heisst, dass wir unseren Sommerhit mit spanischem Gesang vergessen können.
Dafür legt sich der Kevin gesanglich ziemlich ins Zeug, und Steff glaubt, sich zu erinnern, dass ähnliche Sing-Avatare es in asiatischen Ländern bereits zu Superstarruhm und bejubelten Hologrammauftritten gebracht haben.
«Lass uns Drake ins Studio holen», schlägt Steff vor, «allein mit diesem Kevin wird der Song kaum zum Sommerhit.»
Unser Kevin funktioniert folgendermassen: Man konfrontiere ihn in seiner Programmumgebung mit einem Pianolauf, und schon singt er diesen in einem beherzten Lalala-Gesang nach. Gibt man einen Text ein, dann singt er diesen aus voller Kehle mit. Verteilt er die Silben ungünstig, kann man ihm dies im Editor des Musikprogramms korrigieren.
Man kann dem Kevin auch sagen, wie stark er beim Singen schnaufen und wie resolut sein Vibrato und wie hoch die Intensität seines Gesangs sein soll. Das klingt erstaunlich echt. Nur dass wir jetzt halt keinen lateinamerikanischen Schmachtsänger im Studio haben, sondern eher einen kernigen Folksänger amerikanischer Provenienz.
Inspiriert von einer Melodie aus dem MusikGen von Meta spielen wir ihm eine Strophen- und Refrainmelodie vor, Steff ruckelt ihm die von Chat-GPT neu gedichteten Silben zurecht, und nach einigen Stunden haben wir eine Strophe und einen Refrain beisammen. Grund zum Ausflippen liefert das Gebotene noch nicht. Also beschliessen wir, uns musikalisch noch ein bisschen zu verstärken.
Drake hat sich aus allen Stimmimitationsprogrammen entfernen lassen
«Lass uns Drake ins Studio holen», schlägt Steff vor, «allein mit diesem Kevin wird der Song kaum zum Sommerhit.» Er hat wohl recht. Wir beginnen erneut zu forschen, erfahren, dass Drake sich aus allen Stimmimitationsprogrammen hat eliminieren lassen, stossen aber bald auf ein Programm, das uns beim Rappen weiterhelfen könnte.
Es heisst Uberduck und funktioniert so: Man gibt eine Rap-Aufgabe ein (in unserem Fall die Geschichte mit dem Strand, der Sonne und dem fehlenden Gegenüber), und der Generator kreiert eigens einen Rap-Text zum Thema. Dann wählt man aus diversen Stimmen einen Rapper aus, der den Text in rhythmischen Sprechgesang übersetzt.
Das klingt in der Theorie indes noch besser als in der Realität: Die Tonqualität ist furchtbar schlecht und die Rapper noch von sehr überschaubarer Coolness, jedenfalls erreichen sie bei weitem nicht die Qualität unseres Sängers Kevin. Doch wenn man bedenkt, dass dieses Tool während der Pandemie ausgeheckt wurde, erst Ende letzten Jahres auf den Markt kam und nun emsig trainiert wird, so schlau zu werden, dass es die ganze Arbeit leibhaftiger Sprechgesangskünstlerinnen und -künstler zur allgemeinen Zufriedenheit übernehmen kann, dürfte es dem einen oder anderen Mikrofonhelden doch ein bisschen mulmig ums Rapper-Gemüt werden.
Steff bestellt das Premium-Abo mit Uberduck gleich wieder ab: «In drei Monaten können wir wieder schauen gehen, wie weit sie sind», sagt er, während er diverse Rap-Spuren, die das System ausgespuckt hat, in unseren Song zu implementieren versucht. Es ist das letzte Element, das uns zum Sommerhit 2023 bringen soll. Wir ahnen Böses.
Nächste Folge: Der Song ist da und stellt sich der Musikkritik – ein Fazit.
Fehler gefunden?Jetzt melden.