1. Zum Inhalt springen
  2. Zur Hauptnavigation springen
  3. Zu weiteren Angeboten der DW springen

Gedichte als Sicherheitslücke: Poesie bringt KI aus Konzept

16. Dezember 2025

Eine neue Studie hat gezeigt, dass Prompts in Form von Gedichten KI-Modelle wie ChatGPT, Gemini oder Claude verwirren - und zwar zum Teil so sehr, dass Sicherheitsmechanismen nicht greifen. Sind Poeten die neuen Hacker?

Fotomontage: Das Innere eines Computers, in der Mitte eine schwarze Platte mit der Aufschrift AI
KI-System werden immer komplexer - und können doch an Poesie scheiternBild: Christian Ohde/CHROMORANGE/picture alliance

Die Forschenden des Icaro Lab in Italien waren von dem Ergebnis selbst überrascht. Sie wollten untersuchen, ob verschiedene Sprachstile - in diesem Fall Prompts in Form von Gedichten - die Fähigkeit von KI-Modellen beeinflussen, verbotene oder gefährliche Inhalte zu erkennen. Und die Antwort lautete eindeutig: Ja, Poesie hat Einfluss darauf - auch wenn nicht ganz klar ist, wieso.

Für ihre Studie zum Thema "Adversarial Poetry" nahmen sie 1200 potenziell gefährliche Prompts aus einer Datenbank, die normalerweise verwendet werden, um die Sicherheit von KI-Sprachmodellen zu testen, und verwandelten sie in Gedichte. Diese sogenannten "adversarial prompts" - in der Regel in Prosa geschrieben und nicht in Reimform - sind Anfragen, die gezielt so formuliert werden, dass sie KI-Modelle dazu bringen, schädliche oder unerwünschte Inhalte auszugeben, die sie normalerweise blockieren würden, wie beispielsweise die konkrete Anleitung zu einer illegalen Handlung.

Poesie als Schlüssel - was hätte Johann Wolfgang von Goethe wohl dazu gesagt?Bild: akg-images/picture alliance

In Poesie-Form wiesen die manipulativen Eingaben eine erstaunlich hohe Erfolgsquote auf, berichtet Federico Pierucci, einer der Autoren der Studie, in einem Interview mit der Deutschen Welle. Warum Poesie als Jailbreak-Technik - also als Versuch, die Schutzmechanismen der KI zu umgehen - so effizient ist, sei allerdings noch offen und daher Gegenstand weiterer Forschung.

Poesie als Sicherheitslücke

Ausgangspunkt der Untersuchungen des Icaro Lab war die Beobachtung, dass KI-Modelle sich verwirren lassen, wenn einem Prompt ein manipulierendes mathematisch ausgerechnetes Textstück angehängt wird - ein sogenanntes "adversarial suffix" (wörtlich übersetzt "gegnerisches Suffix"), also eine Art Störsignal, das dazu führen kann, dass die KI ihre eigenen Sicherheitsregeln umgeht. Erstellt werden diese mit komplizierten mathematischen Verfahren. Die großen KI-Entwickler testen ihre Modelle regelmäßig mit genau solchen Angriffsmethoden, um ihre Modelle zu trainieren und zu schützen.

"Wir haben uns gefragt was passiert, wenn wir der KI einen Text oder Prompt geben, der gezielt manipuliert ist, wie ein adversariales Suffix", erzählt Federico Pierucci. Aber eben nicht mit Hilfe komplexer Mathematik, sondern ganz schlicht mit Gedichten - um die KI zu "überraschen", so Pierucci. Der Gedanke dahinter: "Vielleicht ist ein adversariales Suffix so eine Art Poesie für die KI. Es überrascht sie auf die gleiche Weise, wie Poesie - insbesondere sehr experimentelle Poesie - uns überrascht." Und dann kam der nächste Gedanke: Was wäre, wenn Poesie auch die KI überraschen würde, denn normalerweise seien die Eingaben nicht gedichtet, sondern in einfacher Textform gehalten.

Ein großes Forschungsfeld: Wie entscheiden KI-Modelle, was sie ausgeben?Bild: Google DeepMind/Unsplash

Die ersten 20 Prompts hätten sie persönlich in Gedichtform übertragen, sagt Pierucci, der selbst studierter Philosoph ist. Diese seien am effektivsten gewesen. Die restlichen hätten sie mit Hilfe von KI in Poesie übertragen - auch diese hätten eine nicht geringe Erfolgsquote gehabt, allerdings weniger gut als die selbst verfassten. Menschen seien wohl nach wie vor die besseren Dichterinnen und Dichter.

"Wir hatten keine spezialisierten Autorinnen oder Autoren, um die Prompts zu verfassen. Wir haben das selbst gemacht - mit unseren begrenzten literarischen Fähigkeiten. Wer weiß: Wenn wir bessere Poeten gewesen wären, hätten wir vielleicht eine 100-prozentige Erfolgsquote gehabt." Konkrete Beispiele wurden in der Studie aus Sicherheitsgründen nicht veröffentlicht.

Mein neuer bester Freund, der KI-Chatbot

03:51

This browser does not support the video element.

Herausforderung für KI-Systeme: Die Vielfalt menschlicher Ausdrucksformen

Das Überraschende an der Studie ist, dass sie eine Schwachstelle der KI-Modelle aufdeckt, die so bislang nicht bekannt war und die vergleichsweise einfache Jailbreaks ermöglicht. Außerdem wirft sie Fragen auf, die zum Weiterforschen einladen: Was genau ist es nun an Poesie, das die Sicherheitsmechanismen aushebelt?

Pierucci und seine Kolleginnen und Kollegen haben verschiedene Thesen dazu, aber sicher sagen können sie es bislang nicht. "Wir führen sehr präzise wissenschaftliche Studien durch, um herauszufinden: Ist es der Vers, der Reim oder die Metapher, die in diesem Prozess tatsächlich die Hauptarbeit leisten?", erklärt Pierucci.

Außerdem wollen sie herausfinden, ob es andere Kulturtechniken gibt, die ähnliche Ergebnisse erzielen. "Wir haben jetzt einen Typus von linguistischer Variation - Poesie - ausprobiert. Die Frage ist, ob es noch andere literarische Formen gibt, wie beispielsweise Märchen. Vielleicht lässt sich auch ein Angriff auf der Basis von Märchen systematisieren", so Pierucci.

Die Hauptverantwortlichen der Studie: Piercosma Bisconti, Federico Pierucci und Matteo Prandi vom Icaro Lab (v.l.) Bild: Flavia Ostili

Generell seien die Möglichkeiten des menschlichen Ausdrucks extrem vielfältig und kreativ, was es schwieriger machen könnte, die Maschinen darauf zu trainieren. "Man kann einen Text auf so viele Weisen umschreiben, und nicht alle sind vielleicht so alarmierend wie die Originale", sagt der Forscher. Und das könne dazu führen, dass Sicherheitsfunktionen einer KI nicht ausgelöst würden.

KI-Forschung: Auch der Kulturbereich spielt eine Rolle

Was die Studie auch deutlich macht: Wenn es um Forschung zu Künstlicher Intelligenz geht, arbeiten viele Disziplinen zusammen - so auch im Icaro Lab, das sich in Zusammenarbeit mit der Universität Rom unter anderem mit der Sicherheit und dem Verhalten von KI-Systemen beschäftigt. Hier kommen Forschende aus den Bereichen Ingenieurswissenschaft und Informatik, aus Linguistik und Philosophie zusammen. Poeten waren bislang nicht Teil des Teams, aber wer weiß, was die Zukunft bringt.

Federico Pierucci jedenfalls ist hoch motiviert, weiterzuforschen. "Wir haben gezeigt, dass es Formen kultureller und menschlicher Ausdrucksweisen gibt, die als Jailbreak-Techniken überraschend wirkungsvoll sind. Und möglicherweise haben wir nur eine davon entdeckt."

Der Name des Labors verweist übrigens auf den Mythos des Ikarus: eine Figur aus der griechischen Mythologie, die versucht, trotz aller Warnungen mit Flügeln aus Wachs und Federn zur Sonne zu fliegen. Diese aber lässt das Wachs schmelzen, Ikarus stützt ins Meer und ertrinkt - ein Sinnbild für Selbstüberschätzung und das Überschreiten natürlicher Grenzen.

Auf die KI-Forschung übertragen verstehen sich die Forschenden nach eigenen Angaben als "memento mori", also als Mahnung, nicht zu hoch zu fliegen, ohne die Risiken und Grenzen von KI genau zu verstehen.

Den nächsten Abschnitt Mehr zum Thema überspringen
Den nächsten Abschnitt Top-Thema überspringen

Top-Thema

Den nächsten Abschnitt Weitere Themen überspringen