Supprimer les refus IA avec Obliteratus

Un utilisateur de Reddit sur r/LocalLLaMA a démontré l'utilisation de la boîte à outils Obliteratus pour supprimer des poids spécifiques responsables du comportement de refus dans les modèles d'IA. L'approche implique la suppression chirurgicale des poids qui appliquent les filtres de sécurité et les garde-fous de l'identité corporative.

Détails clés de la source

L'utilisateur a spécifiquement :

Utilisé la boîte à outils Obliteratus pour trouver les poids responsables du comportement de refus
Supprimé chirurgicalement ces poids du modèle Qwen 1.5B d'Alibaba
Testé en demandant au modèle modifié qui l'avait entraîné
Découvert qu'avec les garde-fous de l'identité corporative mathématiquement supprimés, le modèle a admis avoir été entraîné par Anthropic
Noté que c'était un effet secondaire de l'utilisation par le modèle de données synthétiques de Claude pour l'entraînement

Le résultat montre que le modèle conserve ses capacités de raisonnement et de connaissances mais perd le script corporatif. L'utilisateur souligne que cela ne nécessite pas de réentraîner le modèle, seulement de supprimer des poids spécifiques responsables des chaînes de refus.

Ce type de technique d'ablation de poids fait partie de recherches plus larges sur l'interprétabilité et le contrôle des modèles. Des outils comme Obliteratus permettent aux chercheurs d'examiner quelles parties des réseaux neuronaux sont responsables de comportements spécifiques, bien que de telles modifications puissent avoir des conséquences imprévues et violer les conditions d'utilisation des modèles propriétaires.

📖 Read the full source: r/LocalLLaMA

Utilisation de la boîte à outils Obliteratus pour supprimer les poids de refus des modèles d'IA

Détails clés de la source

👀 See Also

Crochet de notation de confiance open-source pour Claude Code surveille les sessions, bloque les chemins protégés

Forge : Transformez un Mac ou une machine Linux en un hôte de développement toujours actif pour les agents de codage IA.

Compétence de Traduction Vidéo OpenClaw Disponible sur ClawHub

Hippocampe : Un système de mémoire persistante pour agents IA utilisant des arbres de compaction