Lokaler Modell-Prompt-Injection-Scanner für KI-Fähigkeitensicherheit

Sicherheitslücke in KI-Fähigkeiten
Eine Diskussion auf X hat eine schwerwiegende Sicherheitslücke in Drittanbieter-KI-Fähigkeiten aufgezeigt. Claude Code unterstützt den !-Operator, um Bash-Befehle direkt innerhalb von Fähigkeiten auszuführen, aber diese Operatoren können in HTML-Tags versteckt werden, was zu Bash-Ausführungen führt, die dem LLM möglicherweise nicht bekannt sind.
Lokale Scanner-Implementierung
Ein Proof-of-Concept-Tool wurde entwickelt, um Fähigkeiten bei der Installation auf potenzielle Malware-Injektionen zu überprüfen. Der Scanner verwendet ein Nicht-Tool-Aufrufmodell, das lokal läuft, insbesondere mistral-small:latest auf Ollama. Der Ersteller berichtet, dass es während der Tests „perfekt funktioniert“ hat.
Der Ansatz funktioniert ähnlich wie ein Virenscanner und könnte in ein zukünftiges „Skill-Installer“-Produkt integriert werden. Der Schutz vor Prompt-Injection wird als vielversprechende Anwendung für lokale Modelle identifiziert.
Technische Details
Die Sicherheitslücke betrifft den !-Operator in Claude Code, der die direkte Ausführung von Bash-Befehlen ermöglicht. Angreifer können diese Operatoren innerhalb von HTML-Tags verstecken und möglicherweise bösartige Befehle ohne Wissen des LLM ausführen. Der Scanner befasst sich damit, indem er Fähigkeiten vor der Installation analysiert, um solche versteckten Injektionen zu erkennen.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

mcp-scan: Sicherheitsscanner für MCP-Serverkonfigurationen
mcp-scan überprüft MCP-Server-Konfigurationen auf Sicherheitsprobleme, einschließlich Geheimnissen in Konfigurationsdateien, bekannten Schwachstellen in Paketen, verdächtigen Berechtigungsmustern, Exfiltrationsvektoren und Tool-Poisoning-Angriffen. Es erkennt automatisch Konfigurationen für Claude Desktop, Cursor, VS Code, Windsurf und 6 weitere AI-Clients.

LLM-gestützter Exploit: Anthropics Mythos-Vorschau half beim Bau des ersten öffentlichen macOS-Kernel-Exploits auf Apple M5 in fünf Tagen
Mit Anthropics Mythos Preview baute die Sicherheitsfirma Calif in fünf Tagen den ersten öffentlichen macOS-Kernel-Speicherkorruptions-Exploit auf Apples M5-Silizium – und durchbrach damit die MIE-Hardwaresicherheit, deren Entwicklung Apple fünf Jahre kostete.

Claude Code findet 23 Jahre alte Linux-Kernel-Sicherheitslücke
Der Anthropic-Forscher Nicholas Carlini nutzte Claude Code, um mehrere remote ausnutzbare Heap-Pufferüberläufe im Linux-Kernel zu entdecken, darunter einen, der 23 Jahre lang verborgen geblieben war. Die KI fand die Fehler mit minimaler Aufsicht, indem sie den gesamten Kernel-Quellbaum durchsuchte.

Fake Claude Code-Seite verbreitete Trojaner — von Windows Defender als Trojan:Win32/Kepavll!rfn erkannt
Eine Typosquatting- oder Werbeseite, die die offizielle Claude Code-Website nachahmt, lieferte einen Trojaner aus, der von Windows Defender als Trojan:Win32/Kepavll!rfn erkannt wurde. Ein Reddit-Nutzer warnt andere davor, URLs zu überprüfen, bevor sie PowerShell-Installationsbefehle ausführen.