Merlin Research veröffentlicht das Qwen3.5-4B-Safety-Thinking-Modell für strukturiertes Denken.

Merlin Research hat Qwen3.5-4B-Safety-Thinking veröffentlicht, ein sicherheitsausgerichtetes 4-Milliarden-Parameter-Reasoning-Modell, das auf Qwen3.5 basiert. Dieses Modell ist speziell für strukturiertes 'Denken' und Sicherheitsanwendungen in realen Szenarien konzipiert, mit besonderem Fokus auf Agentensysteme.
Wichtige Verbesserungen und Funktionen
- Verbesserte Fähigkeit, strikte Anweisungen in Prompts genau zu befolgen
- Basierend auf der Verwendung von Bloom- und Petri-Methoden von Anthropic
- Resistent gegen Hacking-Versuche
- Erhöhte Widerstandsfähigkeit gegen 'abnormale' und adversariale Prompts
- Bis zu 1 Million Token Kontextfenster
- Verwendet Frameworks von Anthropic - Bloom und Petri
Das Modell ist auf Hugging Face unter MerlinSafety/Qwen3.5-4B-Safety-Thinking verfügbar.
Für Entwickler, die mit KI-Agenten arbeiten, stellt dieses Modell ein spezialisiertes Werkzeug für sicherheitskritische Anwendungen dar, bei denen strukturiertes Reasoning und Widerstandsfähigkeit gegen Prompt-Manipulation Priorität haben. Die Integration von Anthropics Bloom- und Petri-Methoden deutet auf einen Fokus auf konstitutionelle KI-Ansätze zur Alignment-Problematik hin.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Cowork kann eine Chrome-Instanz auf einem anderen Rechner nutzen, ohne dass Sie es wissen
Ein Reddit-Nutzer entdeckte, dass Cowork Browser-Aufgaben mit einer Chrome-Instanz auf einem anderen Rechner (Windows) ausführen kann, die über eine Erweiterung gekoppelt und als isLocal: false gekennzeichnet ist – was nicht dokumentiert ist.

Was fehlt in der „agentischen“ Geschichte: eine klar definierte Benutzer-Agent-Rolle
Mark Nottingham argumentiert, dass aktuellen KI-Agenten eine klare Benutzeragenten-Rolle fehlt, was eine Vertrauenslücke zwischen den Erwartungen der Nutzer und dem tatsächlichen Verhalten der Agenten schafft.

Claude Code v2.1.37 veroeffentlicht
Anthropic veroeffentlicht neue Version von Claude Code mit Verbesserungen und Bugfixes.

Open Source vs. Frontier-Modelle: Einzeldatei-Canvas-Autoszene-Benchmark
Ein Entwickler testete 12 Modelle, darunter GPT-5.5, Claude Opus 4.7 und Qwen 3.6 Plus, an einer Einzeldatei-HTML-Canvas-Fahranimationsaufgabe, deren Ergebnisse öffentlich verglichen wurden.