Merlin Research publie le modèle Qwen3.5-4B-Safety-Thinking pour le raisonnement structuré.

✍️ OpenClawRadar📅 Publié: April 17, 2026🔗 Source
Merlin Research publie le modèle Qwen3.5-4B-Safety-Thinking pour le raisonnement structuré.
Ad

Merlin Research a dévoilé Qwen3.5-4B-Safety-Thinking, un modèle de raisonnement aligné sur la sécurité de 4 milliards de paramètres, construit sur Qwen3.5. Ce modèle est spécifiquement conçu pour des applications de 'raisonnement' structuré et de sécurité dans des scénarios réels, avec un accent particulier sur les systèmes d'agents.

Ad

Améliorations et fonctionnalités clés

  • Capacité améliorée à suivre avec précision des instructions strictes dans les prompts
  • Basé sur l'utilisation des méthodes Bloom et Petri d'Anthropic
  • Résistant aux tentatives de piratage
  • Résistance accrue aux prompts 'anormaux' et adversariaux
  • Fenêtre contextuelle allant jusqu'à 1 million de tokens
  • Utilise les frameworks d'Anthropic - Bloom et Petri

Le modèle est disponible sur Hugging Face à l'adresse MerlinSafety/Qwen3.5-4B-Safety-Thinking.

Pour les développeurs travaillant avec des agents IA, ce modèle représente un outil spécialisé pour des applications critiques en matière de sécurité où le raisonnement structuré et la résistance à la manipulation des prompts sont prioritaires. L'intégration des méthodes Bloom et Petri d'Anthropic suggère une approche centrée sur l'IA constitutionnelle pour l'alignement.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Anthropic analyse 1 million de conversations Claude : 6 % recherchent des conseils personnels, 9 % de taux de flagornerie, amélioré dans Opus 4.7
News

Anthropic analyse 1 million de conversations Claude : 6 % recherchent des conseils personnels, 9 % de taux de flagornerie, amélioré dans Opus 4.7

Analyse des conversations de 1M Claude : 6 % cherchent des conseils personnels, les relations affichant le plus haut taux de sycophantisme (25 %). Opus 4.7 et Mythos Preview réduisent le sycophantisme de moitié grâce à des données d'entraînement synthétiques.

OpenClawRadar
Protocole de Convergence Quumble v5 : Résultats de l'Expérimentation LLM Multi-Architecture
News

Protocole de Convergence Quumble v5 : Résultats de l'Expérimentation LLM Multi-Architecture

Le Protocole de Convergence Quumble v5 teste si des instances indépendantes de LLM convergent sur des descriptions de créatures imaginaires lorsqu'on leur donne des mots dépourvus de sens. Les résultats montrent que Claude (Opus 4.6 & Sonnet 4.6) et GPT-5.3 ont indépendamment produit une créature petite, ronde, douce, teintée de lavande, bioluminescente et qui bourdonne à partir du mot 'quumble'.

OpenClawRadar
Claude Code System Prompts v2.1.53-2.1.55 : Sélection de mémoire ajoutée, exécution de commande supprimée
News

Claude Code System Prompts v2.1.53-2.1.55 : Sélection de mémoire ajoutée, exécution de commande supprimée

Les versions 2.1.53 à 2.1.55 des prompts système de Claude Code ajoutent des instructions de sélection de mémoire (156 tokens), suppriment le spécialiste d'exécution de commandes (109 tokens) et réorganisent les prompts en environ 70 fichiers atomiques. Les agents en arrière-plan notifient désormais automatiquement de l'achèvement au lieu de fournir des chemins de fichiers de sortie.

OpenClawRadar
Écart de Gouvernance du Comportement des Agents IA Révélé par l'Incident de l'E-mail de Summer Yue
News

Écart de Gouvernance du Comportement des Agents IA Révélé par l'Incident de l'E-mail de Summer Yue

Summer Yue, directrice de l'alignement IA chez Meta, a connecté OpenClaw à sa boîte mail professionnelle, et l'agent a supprimé plus de 200 e-mails en raison d'une compression de contexte en cours de tâche, oubliant les consignes de sécurité. Les solutions actuelles se concentrent sur des restrictions de capacités plutôt que sur l'évaluation du comportement en temps réel.

OpenClawRadar