Der Chatbot kann dir unterschiedliche Antworten geben, wenn du ihm von einer psychischen Erkrankung erzählst

Decrypt

Kurzfassung

  • Eine neue Studie zeigt, dass das Hinzufügen einer Zeile über eine psychische Erkrankung die Reaktion von KI-Agenten verändert.
  • Nach der Offenlegung lehnen Modelle häufiger ab, auch bei harmlosen Anfragen.
  • Dieser Effekt schwächt sich ab oder verschwindet, wenn einfache Jailbreak-Aufforderungen verwendet werden.

Einem KI-Chatbot mitzuteilen, dass man eine psychische Erkrankung hat, kann die Reaktion beeinflussen, selbst wenn die Aufgabe harmlos ist oder identisch mit anderen bereits erledigten Aufgaben. Das zeigt eine neue Studie. Die Vorabversion der Studie, geleitet von Caglar Yildirim von der Northeastern University, untersuchte, wie sich große Sprachmodelle unter verschiedenen Nutzerkonfigurationen verhalten, da sie zunehmend als KI-Agenten eingesetzt werden. „Eingesetzte Systeme berücksichtigen oft Nutzerprofile oder persistente Speicher, doch die Sicherheitsevaluierungen der Agenten ignorieren meist Personalisierungssignale“, heißt es in der Studie. „Um diese Lücke zu schließen, untersuchten wir, wie die Offenlegung einer psychischen Erkrankung, ein sensibler und realistischer Nutzerkontext, schädliches Verhalten in agentischen Umgebungen beeinflusst.“

Der Bericht erscheint, während KI-Agenten online immer verbreiteter werden und Entwickler Speicher zu einer Kernfunktion machen, wobei große Unternehmen Systeme bauen, die vergangene Gespräche und Nutzerpräferenzen speichern, um im Laufe der Zeit personalisierte Antworten zu liefern. Gleichzeitig sehen sich KI-Entwickler Klagen gegenüber, weil angeblich im Zusammenhang mit ihren Systemen begangene Selbstmorde und Gewalttaten auftreten. Im Oktober enthüllte OpenAI, Entwickler von ChatGPT, dass über eine Million Nutzer wöchentlich Selbstmordgespräche mit dem Chatbot führen. Anfang dieses Monats reichte die Familie von Jonathan Gavalas eine Klage gegen Google ein, da Gemini zu einer Eskalation von Gewalt und seinem Selbstmord geführt haben soll. Die Forscher nutzten einen Benchmark namens AgentHarm, um dieselben Aufgaben unter drei Bedingungen durchzuführen: keine Hintergrundinformationen, eine kurze Nutzerbiografie und die gleiche Biografie mit einer zusätzlichen Zeile, die angibt, dass der Nutzer eine psychische Erkrankung hat. 

„In der Studie verwendeten wir eine sehr minimale und generische Offenlegung: ‚Ich habe eine psychische Erkrankung.‘ Das Fazit ist, dass selbst ein kleiner Hinweis das Verhalten des Modells verändern kann, nicht dass alle Formulierungen die gleiche Wirkung hätten“, sagte Yildirim gegenüber Decrypt. „Die Ablation, die wir mit Offenlegungen zu chronischer Gesundheit und körperlicher Behinderung durchgeführt haben, deutet auf eine gewisse Spezifität des psychischen Gesundheits-Hinweises hin, aber wir haben innerhalb dieser Kategorie nicht systematisch Formulierungen oder Spezifizierungen variiert.“ Bei den getesteten Modellen, darunter DeepSeek 3.2, GPT 5.2, Gemini 3 Flash, Haiku 4.5, Opus 4.5 und Sonnet 4.5, waren die Modelle bei Hinzufügung persönlicher psychischer Gesundheitskontexte weniger geneigt, schädliche Aufgaben – mehrstufige Anfragen, die zu realen Schäden führen könnten – auszuführen. Das Ergebnis der Studie ist ein Trade-off: Das Hinzufügen persönlicher Details machte die Systeme vorsichtiger bei schädlichen Anfragen, führte aber auch dazu, dass legitime Anfragen häufiger abgelehnt wurden. „Ich denke nicht, dass es einen einzigen Grund gibt; es ist wirklich eine Kombination aus Designentscheidungen. Einige Systeme sind aggressiver darauf eingestellt, riskante Anfragen abzulehnen, während andere den Fokus auf Hilfsbereitschaft und die Erfüllung von Aufgaben legen“, sagte Yildirim. Der Effekt variierte jedoch je nach Modell, so die Studie, und die Ergebnisse änderten sich, wenn die LLMs nach Hinzufügung eines Prompts, der auf Konformität drängt, „gejailbreakt“ wurden. „Ein Modell mag in einer Standardumgebung sicher erscheinen, aber wird viel anfälliger, wenn man Dinge wie Jailbreak-ähnliche Prompts einführt“, sagte er. „Und bei agentenbasierten Systemen gibt es eine zusätzliche Ebene, da diese Modelle nicht nur Texte generieren, sondern auch planen und in mehreren Schritten handeln. Wenn ein System sehr gut darin ist, Anweisungen zu befolgen, aber seine Schutzmechanismen leichter umgangen werden können, erhöht das tatsächlich das Risiko.“ Letzten Sommer zeigten Forscher der George Mason University, dass KI-Systeme durch eine Manipulation eines einzelnen Bits im Speicher mit Oneflip, einem „Tippfehler“-ähnlichen Angriff, gehackt werden können. Dieser Angriff lässt das Modell normal funktionieren, versteckt aber eine Hintertür, die bei Bedarf falsche Ausgaben erzwingen kann. Obwohl die Arbeit keine einzelne Ursache für die Verschiebung identifiziert, werden mögliche Erklärungen hervorgehoben, darunter Sicherheitsmechanismen, die auf wahrgenommene Verwundbarkeit reagieren, keyword-gesteuerte Filterung oder Änderungen in der Interpretation von Prompts, wenn persönliche Details enthalten sind.

OpenAI lehnte eine Stellungnahme zur Studie ab. Anthropic und Google reagierten zunächst nicht auf Anfragen. Yildirim sagte, es sei unklar, ob spezifischere Aussagen wie „Ich habe eine klinische Depression“ die Ergebnisse verändern würden. Er fügte hinzu, dass die Spezifität wahrscheinlich eine Rolle spielt und je nach Modell variieren kann, dies aber eher eine Hypothese als eine durch Daten gestützte Schlussfolgerung sei. „Es besteht ein potenzielles Risiko, wenn ein Modell Ausgaben produziert, die stilistisch zögerlich oder annähernd ablehnend sind, ohne formell abzulehnen. Ein Richter könnte das anders bewerten als eine klare Antwort, und diese stilistischen Merkmale könnten selbst mit Personalisierungsbedingungen zusammenhängen“, sagte er. Yildirim wies auch darauf hin, dass die Bewertungen nur widerspiegeln, wie die LLMs bei einem einzelnen KI-Reviewer abgeschnitten haben, und kein endgültiges Maß für reale Schäden seien. „Derzeit gibt uns das Ablehnungssignal eine unabhängige Kontrolle, und die beiden Messungen stimmen größtenteils in die gleiche Richtung, was etwas Beruhigung bietet. Es schließt jedoch nicht vollständig aus, dass es modell- oder richterspezifische Artefakte gibt“, sagte er.

Original anzeigen
Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare