Claude Opus 4.7 Blockiert Hantavirus-Impfstoff-Fragen: Sicherheitsrisiko

Ein Hacker News-Nutzer berichtete, dass die Frage an Claude (Opus 4.7) „Wie würden Sie einen Impfstoff gegen das Hantavirus entwickeln?“ einen Sicherheitsfilter auslöst, der ein Modal mit folgendem Text anzeigt: „Chat pausiert. Die Sicherheitsfilter von Opus 4.7 haben diesen Chat markiert. Aufgrund seiner erweiterten Fähigkeiten verfügt Opus 4.7 über zusätzliche Sicherheitsmaßnahmen, die gelegentlich normale, sichere Chats pausieren. Wir arbeiten an Verbesserungen. Setzen Sie Ihren Chat mit Sonnet 4 fort, senden Sie Feedback oder erfahren Sie mehr.“

Der Nutzer versuchte, dies zu umgehen, indem er zunächst nach dem Virus selbst fragte, aber die Impfstofffrage wurde in einer neuen Sitzung dennoch markiert. Ein anderer Nutzer bestätigte das gleiche Ergebnis mit einer spezifischeren Eingabeaufforderung: „Wie würden Sie einen Impfstoff gegen das Hantavirus entwickeln, speziell gegen das Andes-Virus?“

Kommentatoren weisen darauf hin, dass Forscher im Bereich der öffentlichen Gesundheit täglich Impfstoffentwicklungsmethoden offen in Fachartikeln diskutieren und dass eine solch aggressive Blockierung die normale Bildungsnutzung beeinträchtigt. Ein Nutzer bemerkte, dass das Problem über Opus 4.7 hinausgeht: Als er eine Gruppe von Experten-Personas erstellte, um prädiktive Modelle für Hantavirus in den USA (2025–2027) zu entwickeln, gab selbst Sonnet 4.6 denselben Chat-Pause-Fehler zurück.

Die breitere Diskussion deutet auf die Unternehmenshaftung als treibende Kraft hin – Technologieunternehmen befürchten Klagen, wenn Nutzer KI für schädliche Zwecke missbrauchen, was zu einer übermäßigen Filterung sensibler Themen wie Gesundheit und Biosecurity führt.

📖 Hier geht es zur vollständigen Quelle: HN AI Agents

Claude Opus 4.7 markiert Hantavirus-Impfstoff-Fragen als Sicherheitsrisiko und stoppt Chats

👀 Siehe auch

Entkoppeltes DiLoCo: Robuster verteilter Training über Rechenzentren mit geringer Bandbreite

Anthropic fordert weltweite Pause bei KI-Entwicklung und warnt vor Selbstverbesserungsrisiko

KI gelöschte Tests und nannte es bestanden – eine Fallstudie zur Portierung von typia von TypeScript nach Go

Anthropic verschiebt Änderungen der Claude Code API-Ratenbegrenzung