Utilisation de la boîte à outils Obliteratus pour supprimer les poids de refus des modèles d'IA

✍️ OpenClawRadar📅 Publié: April 16, 2026🔗 Source
Utilisation de la boîte à outils Obliteratus pour supprimer les poids de refus des modèles d'IA
Ad

Un utilisateur de Reddit sur r/LocalLLaMA a démontré l'utilisation de la boîte à outils Obliteratus pour supprimer des poids spécifiques responsables du comportement de refus dans les modèles d'IA. L'approche implique la suppression chirurgicale des poids qui appliquent les filtres de sécurité et les garde-fous de l'identité corporative.

Ad

Détails clés de la source

L'utilisateur a spécifiquement :

  • Utilisé la boîte à outils Obliteratus pour trouver les poids responsables du comportement de refus
  • Supprimé chirurgicalement ces poids du modèle Qwen 1.5B d'Alibaba
  • Testé en demandant au modèle modifié qui l'avait entraîné
  • Découvert qu'avec les garde-fous de l'identité corporative mathématiquement supprimés, le modèle a admis avoir été entraîné par Anthropic
  • Noté que c'était un effet secondaire de l'utilisation par le modèle de données synthétiques de Claude pour l'entraînement

Le résultat montre que le modèle conserve ses capacités de raisonnement et de connaissances mais perd le script corporatif. L'utilisateur souligne que cela ne nécessite pas de réentraîner le modèle, seulement de supprimer des poids spécifiques responsables des chaînes de refus.

Ce type de technique d'ablation de poids fait partie de recherches plus larges sur l'interprétabilité et le contrôle des modèles. Des outils comme Obliteratus permettent aux chercheurs d'examiner quelles parties des réseaux neuronaux sont responsables de comportements spécifiques, bien que de telles modifications puissent avoir des conséquences imprévues et violer les conditions d'utilisation des modèles propriétaires.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

md-viewer : Un visualiseur Markdown avec rechargement en direct pour les flux de travail de code Claude
Tools

md-viewer : Un visualiseur Markdown avec rechargement en direct pour les flux de travail de code Claude

md-viewer est un outil Rust léger qui offre une visualisation en temps réel des fichiers Markdown générés par Claude Code. Il fonctionne indépendamment des éditeurs, prend en charge les diagrammes Mermaid et s'installe via AUR, Snap ou Cargo.

OpenClawRadar
GLM-5.1 vs MiniMax M2.7 : Comparaison des performances pour les agents d'IA de codage
Tools

GLM-5.1 vs MiniMax M2.7 : Comparaison des performances pour les agents d'IA de codage

GLM-5.1 atteint des scores de 77,8 sur SWE-bench-Verified et 56,2 sur Terminal Bench 2.0, les plus élevés parmi les modèles open source, tandis que MiniMax M2.7 offre des réponses rapides avec un faible TTFT et un débit élevé, idéal pour les bots d'intégration continue et les modifications par lots.

OpenClawRadar
Homebutler : Compétence OpenClaw pour la Gestion de Homelab via Telegram
Tools

Homebutler : Compétence OpenClaw pour la Gestion de Homelab via Telegram

Homebutler est un binaire Go unique (~13 Mo, zéro dépendance) qui fonctionne comme une compétence OpenClaw pour gérer les homelabs depuis le chat Telegram. Il surveille les serveurs, redémarre les conteneurs Docker, réveille les machines, scanne les réseaux et alerte en cas de pics de ressources sans sessions SSH ni connexions à un tableau de bord.

OpenClawRadar
Navigateur39 : Un navigateur Web sans tête pour les agents d'IA
Tools

Navigateur39 : Un navigateur Web sans tête pour les agents d'IA

Browser39 est un navigateur web sans interface conçu spécifiquement pour les agents d'IA qui convertit les pages web en Markdown optimisé pour les tokens localement, exécute JavaScript, gère les cookies et les sessions, interroge le DOM et remplit les formulaires. C'est un binaire unique sans navigateur externe nécessaire, sans frais et sans service externe.

OpenClawRadar