Merlin Research veröffentlicht das Qwen3.5-4B-Safety-Thinking-Modell für strukturiertes Denken.

Merlin Research hat Qwen3.5-4B-Safety-Thinking veröffentlicht, ein sicherheitsausgerichtetes 4-Milliarden-Parameter-Reasoning-Modell, das auf Qwen3.5 basiert. Dieses Modell ist speziell für strukturiertes 'Denken' und Sicherheitsanwendungen in realen Szenarien konzipiert, mit besonderem Fokus auf Agentensysteme.
Wichtige Verbesserungen und Funktionen
- Verbesserte Fähigkeit, strikte Anweisungen in Prompts genau zu befolgen
- Basierend auf der Verwendung von Bloom- und Petri-Methoden von Anthropic
- Resistent gegen Hacking-Versuche
- Erhöhte Widerstandsfähigkeit gegen 'abnormale' und adversariale Prompts
- Bis zu 1 Million Token Kontextfenster
- Verwendet Frameworks von Anthropic - Bloom und Petri
Das Modell ist auf Hugging Face unter MerlinSafety/Qwen3.5-4B-Safety-Thinking verfügbar.
Für Entwickler, die mit KI-Agenten arbeiten, stellt dieses Modell ein spezialisiertes Werkzeug für sicherheitskritische Anwendungen dar, bei denen strukturiertes Reasoning und Widerstandsfähigkeit gegen Prompt-Manipulation Priorität haben. Die Integration von Anthropics Bloom- und Petri-Methoden deutet auf einen Fokus auf konstitutionelle KI-Ansätze zur Alignment-Problematik hin.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Agora-1: Open-Source-Multi-Agent-Weltmodell für Echtzeit-Shared-Simulation
Odyssey veröffentlicht Agora-1, ein Weltmodell, das bis zu vier Agenten (Mensch oder KI) den Echtzeit-Zugriff auf eine gemeinsam generierte Simulation ermöglicht, mit GoldenEye als Testumgebung.

APEX MoE Quants Update: 25+ neue Modelle und I-Nano-Stufe veröffentlicht
APEX MoE-bewusste Mixed-Precision-Quantisierung wird auf über 30 Modelle der Qwen-, Mistral-, Gemma- und hybriden SSM-Familien ausgeweitet, plus eine neue I-Nano-Stufe, die auf mittleren Layern bis zu 2,06 bpw erreicht.

Claude-Code v2.1.79 fügt Fernsteuerung hinzu, behebt Subprozess-Hänger und verbessert die Speichernutzung.
Claude-Code v2.1.79 führt einen /remote-control-Befehl für VSCode ein, um Sitzungen zu claude.ai/code zu verbinden, behebt das Hängen von claude -p in Subprozessen und reduziert den Start-Speicherverbrauch um ~18 MB. Das Release fügt außerdem ein --console-Flag für die Anthropic Console-Authentifizierung hinzu und verbessert die API-Timeout-Behandlung.

Anthropic berichtet über Hinweise auf massenhafte Claude-Destillation durch KI-Konkurrenten
Anthropic hat Beweise vorgelegt, dass DeepSeek, Moonshot und MiniMax etwa 24.000 gefälschte Konten nutzten, um massenhaft Wissen von Claude abzuziehen, wobei über 16 Millionen Austausche aufgezeichnet wurden.