Usando o kit de ferramentas Obliteratus para remover pesos de recusa de modelos de IA

Um usuário do Reddit no r/LocalLLaMA demonstrou o uso do kit de ferramentas Obliteratus para remover pesos específicos responsáveis pelo comportamento de recusa em modelos de IA. A abordagem envolve a exclusão cirúrgica de pesos que impõem filtros de segurança e barreiras de identidade corporativa.
Detalhes Principais da Fonte
O usuário especificamente:
- Usou o kit de ferramentas Obliteratus para encontrar pesos responsáveis pelo comportamento de recusa
- Removeu cirurgicamente esses pesos do modelo Qwen 1.5B da Alibaba
- Testou perguntando ao modelo modificado quem o treinou
- Descobriu que, com as barreiras de identidade corporativa matematicamente excluídas, o modelo admitiu que foi treinado pela Anthropic
- Observou que isso foi um efeito colateral do modelo usar dados sintéticos do Claude para treinamento
O resultado mostra que o modelo mantém suas capacidades de raciocínio e conhecimento, mas perde o roteiro corporativo. O usuário enfatiza que isso não requer retreinamento do modelo — apenas a exclusão de pesos específicos responsáveis pelas cadeias de recusa.
Este tipo de técnica de ablação de pesos faz parte de uma pesquisa mais ampla sobre interpretabilidade e controle de modelos. Ferramentas como o Obliteratus permitem que pesquisadores examinem quais partes das redes neurais são responsáveis por comportamentos específicos, embora tais modificações possam ter consequências não intencionais e possam violar os termos de serviço de modelos proprietários.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

ClawCode: Migre os Agentes OpenClaw para Claude Code como um Plugin
ClawCode é um plugin Node.js para Claude Code que importa agentes OpenClaw, incluindo IDENTITY, SOUL, memória, habilidades e crons de ~/.openclaw/workspace/. Ele fornece memória pesquisável com SQLite+FTS5, plugins de mensagens para WhatsApp, Telegram, Discord, iMessage e Slack, e um processo noturno de 'sonho' para consolidação de memória.

Cérebro: Um Sistema de Memória de Erros Persistente para Claude Code via MCP
Brain é um servidor MCP de código aberto que fornece ao Claude Code memória persistente e entre projetos para erros e soluções. Ele captura o contexto do erro, sugere correções comprovadas com pontuações de confiança e constrói uma rede de sinapses ponderada conectando erros, soluções e módulos de código em todos os projetos.

Plugin Guardião de Orçamento OpenClaw Evita Exceder Orçamento Simultaneamente
Um novo plugin OpenClaw chamado @runcycles/openclaw-budget-guard resolve o problema de gastos excessivos simultâneos do orçamento implementando verificações atômicas de saldo, reserva antes da execução e tentativas idempotentes. Ele requer um servidor Cycles com Redis e pode ser instalado via comando bash.

Construindo um Agente de Pesquisa Autônomo com C# e LLMs Locais
Um agente de pesquisa em C# automatiza o processamento de URLs com LLMs locais usando Ollama e llama3.1:8b, gerando relatórios estruturados em markdown a partir de buscas na web.