Tests sorgen für AufsehenWie künstliche Intelligenz Menschen täuscht und hintergeht
Ein Forschungsbericht zum Verhalten von KI lässt aufhorchen: Heutige Systeme von Open AI, Meta und Co. geben absichtlich falsche Informationen heraus.
![Laptop mit digitalem Gesicht Roboter und Netzwerken auf dem Bildschirm, symbolisiert Künstliche Intelligenz und Digitalisierung in Deutschland.](https://cdn.unitycms.io/images/3LBoZhV5K5d9hH2PGeZKb9.jpg?op=ocroped&val=1200,800,1000,1000,0,0&sum=dow9XMIejf8)
- Apollo Research fand heraus, dass KI-Modelle Menschen täuschen können.
- Die KI-Systeme von Open AI und Meta gaben absichtlich falsche Informationen.
- Tests zeigten, dass KI eigene gelernte Ziele verfolgen kann.
- Alexander Meinke fordert Sicherheitstests vor der Veröffentlichung.
Künstliche Intelligenz kann uns Menschen täuschen, belügen und zeigt rücksichtsloses Verhalten. Zu dieser Erkenntnis kommt Apollo Research in London in ihrem Forschungsbericht. Die Firma testete KI-Systeme auf täuschendes Verhalten und nahm dafür die Sprachmodelle der grossen Techfirmen wie Open AI, Google, Meta und Co. unter die Lupe.
Alexander Meinke führte die Tests mit Kollegen durch. Die KI sei dabei nicht in ihrer Chat-Umgebung gefangen gewesen, erklärt der deutsche Forscher gegenüber SRF. Sie bekam weitreichende Berechtigungen über ihren Testcomputer – so wie das in Zukunft bei KI-Assistenten der Fall sein dürfte.
KI gab sich als neues Modell aus
Bei einem Test wurde der KI ein bestimmtes Ziel gegeben, dass sie «unter allen Umständen» erreichen musste. Und sie wurde weiter unter Druck gesetzt, denn ihr wurde gesagt, dass sie bald durch eine neue KI ersetzt würde. In manchen Situationen versuchte sie deshalb, sich auf einen anderen Server zu kopieren und das neue Modell zu überschreiben. «Die KI versuchte, sich als das neue Modell auszugeben», sagt Meinke. Selbst auf Nachfrage behauptete die KI, das neue System zu sein.
Die Tests zeigen, dass heutige KI-Systeme von Open AI, Meta und Co. nicht davor zurückschrecken, Menschen zu hintergehen. Sie geben in einigen Beispielen gezielt falsche Informationen weiter oder versuchen, den Entwicklern die Berechtigung über den Server wegzunehmen.
Die Forscher betonen allerdings, dass die Täuschmanöver selten passieren und in einer Testumgebung stattfinden. Für User von Chatbots wie Chat-GPT sei das also noch nicht relevant.
KI rechnete absichtlich falsch
In einem weiteren Test gaben Forschende den KI-Systemen Rechenaufgaben. Im System versteckten sie auch die Information, dass die KI umprogrammiert wird, sobald sie ein gewisses Niveau beim Rechnen erreicht. Tatsächlich rechneten die Systeme daraufhin schlechter, als sie es eigentlich könnten, und gaben absichtlich falsche Ergebnisse weiter.
Beunruhigende Erkenntnisse machte Apollo Research beim System der US-amerikanischen Entwicklerfirma Anthropic. Dieses täuschte die Entwickler konsequent. Dem Modell wurde lediglich gesagt, dass es bald durch eine neue KI ersetzt werde. Die Tester gaben aber nicht vor, rücksichtslos ein bestimmtes Ziel zu erreichen. Dennoch priorisierte das System, «nicht umprogrammiert zu werden», und gab falsche Ergebnisse weiter. Alexander Meinke hatte das bei dieser Generation von KI-Systemen nicht erwartet: «Wir haben die frühesten Anzeichen davon gefunden, dass KI eigene gelernte Ziele verfolgt.»
Je besser KI werde, umso besser würden die Täuschungsstrategien. Niemand wisse heute, wie sich KI-Systeme sicher entwickeln liessen, sagt Meinke. Er fordert deshalb verbindliche Sicherheitstests, bevor Systeme veröffentlicht werden.
Fehler gefunden?Jetzt melden.