Merlin Research publie le modèle Qwen3.5-4B-Safety-Thinking pour le raisonnement structuré.

✍️ OpenClawRadar📅 Publié: April 17, 2026🔗 Source

Merlin Research a dévoilé Qwen3.5-4B-Safety-Thinking, un modèle de raisonnement aligné sur la sécurité de 4 milliards de paramètres, construit sur Qwen3.5. Ce modèle est spécifiquement conçu pour des applications de 'raisonnement' structuré et de sécurité dans des scénarios réels, avec un accent particulier sur les systèmes d'agents.

Améliorations et fonctionnalités clés

Capacité améliorée à suivre avec précision des instructions strictes dans les prompts
Basé sur l'utilisation des méthodes Bloom et Petri d'Anthropic
Résistant aux tentatives de piratage
Résistance accrue aux prompts 'anormaux' et adversariaux
Fenêtre contextuelle allant jusqu'à 1 million de tokens
Utilise les frameworks d'Anthropic - Bloom et Petri

Le modèle est disponible sur Hugging Face à l'adresse MerlinSafety/Qwen3.5-4B-Safety-Thinking.

Pour les développeurs travaillant avec des agents IA, ce modèle représente un outil spécialisé pour des applications critiques en matière de sécurité où le raisonnement structuré et la résistance à la manipulation des prompts sont prioritaires. L'intégration des méthodes Bloom et Petri d'Anthropic suggère une approche centrée sur l'IA constitutionnelle pour l'alignement.

📖 Read the full source: r/LocalLLaMA

👀 See Also

News

Le paramètre effort=low de Claude Opus 4.6 diffère des modes de raisonnement réduit des autres fournisseurs.

Le paramètre effort=low de Claude Opus 4.6 contrôle l'effort comportemental général, et non seulement la profondeur de raisonnement, contrairement au reasoning.effort=low d'OpenAI ou au thinking_level=low de Gemini. Cela a conduit les agents à effectuer moins d'appels d'outils, à être moins rigoureux dans la vérification croisée et à ignorer certaines parties des instructions système concernant la recherche web.

Mar 11, 2026, 03:45 PM UTC

OpenClawRadar

News

Claude Code v2.1.196 : Modèles par défaut de l'organisation, correction de sécurité, récupération des tâches en arrière-plan

Claude Code v2.1.196 ajoute les modèles par défaut de l'organisation, corrige un problème de sécurité avec le lancement de serveurs MCP, améliore la fiabilité des sessions en arrière-plan et réduit de 25% l'utilisation de jetons dans /code-review.

Jun 30, 2026, 12:15 AM UTC

OpenClawRadar

News

La stratégie d'IA d'Apple et la marchandisation de l'intelligence

L'article soutient que l'approche conservatrice d'Apple en matière d'IA pourrait être avantageuse à mesure que l'intelligence se banalise, avec des modèles comme Gemma4 atteignant 85,2 % sur MMLU Pro tout en fonctionnant sur des téléphones, et le Sora d'OpenAI coûtant 15 millions de dollars par jour contre 2,1 millions de dollars de revenus.

Apr 16, 2026, 12:45 PM UTC

OpenClawRadar

News

Analyse de Claude sur le débat Minimax et l'écart de marché d'Anthropic

Claude soutient que MiniMax a légalement obtenu des données d'entraînement en payant des millions d'appels API et identifie un manque dans la gamme de produits d'Anthropic pour un orchestrateur persistant et bon marché.

Apr 17, 2026, 05:45 AM UTC

OpenClawRadar