Prompt Injection ist ein Angriffsvektor, bei dem böswilliger Input die ursprünglichen Anweisungen eines KI-Systems umschreibt. Über versteckten Text in Dokumenten, Webseiten oder E-Mails kann ein Angreifer ein Modell etwa dazu bringen, seine Systemregeln zu ignorieren, vertrauliche Daten preiszugeben oder schädliche Aktionen auszuführen.
Gegenmaßnahmen sind strikte Trennung von Instruktionen und Daten, eingeschränkte Tool-Berechtigungen, User-Confirmation bei sensiblen Aktionen und Ausgabefilter. Besonders bei KI-Agenten mit Schreibrechten ist das Thema sicherheitskritisch.
Wir prüfen und härten KI-Lösungen gegen Prompt Injection im Schnittfeld unserer Bereiche KI und IT-Sicherheit.