Usando el kit de herramientas Obliteratus para eliminar los pesos de rechazo de los modelos de IA.

✍️ OpenClawRadar📅 Publicado: 16 de abril de 2026🔗 Source
Usando el kit de herramientas Obliteratus para eliminar los pesos de rechazo de los modelos de IA.
Ad

Un usuario de Reddit en r/LocalLLaMA demostró el uso del kit de herramientas Obliteratus para eliminar pesos específicos responsables del comportamiento de rechazo en modelos de IA. El enfoque implica eliminar quirúrgicamente los pesos que aplican filtros de seguridad y barreras de identidad corporativa.

Ad

Detalles clave de la fuente

El usuario específicamente:

  • Utilizó el kit de herramientas Obliteratus para encontrar pesos responsables del comportamiento de rechazo
  • Eliminó quirúrgicamente estos pesos del modelo Qwen 1.5B de Alibaba
  • Probó preguntando al modelo modificado quién lo entrenó
  • Encontró que, con las barreras de identidad corporativa eliminadas matemáticamente, el modelo admitió que fue entrenado por Anthropic
  • Señaló que esto fue un efecto secundario del uso de datos sintéticos de Claude para el entrenamiento del modelo

El resultado muestra que el modelo conserva sus capacidades de razonamiento y conocimiento, pero pierde el guion corporativo. El usuario enfatiza que esto no requiere reentrenar el modelo, solo eliminar pesos específicos responsables de las cadenas de rechazo.

Este tipo de técnica de ablación de pesos es parte de una investigación más amplia sobre interpretabilidad y control de modelos. Herramientas como Obliteratus permiten a los investigadores examinar qué partes de las redes neuronales son responsables de comportamientos específicos, aunque tales modificaciones pueden tener consecuencias no deseadas y pueden violar los términos de servicio de modelos propietarios.

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Skales: Agente de IA de escritorio con soporte Ollama, 300MB de RAM en inactividad.
Herramientas

Skales: Agente de IA de escritorio con soporte Ollama, 300MB de RAM en inactividad.

Skales es una aplicación de escritorio nativa de Electron que proporciona un agente de IA autónomo con instaladores .exe/.dmg, funciona con Ollama para inferencia local o proveedores en la nube, y utiliza aproximadamente 300 MB de RAM en reposo con datos almacenados localmente en ~/.skales-data.

OpenClawRadar
SkyClaw: Entorno de Ejecución para Agentes Autónomos de IA Basado en Rust
Herramientas

SkyClaw: Entorno de Ejecución para Agentes Autónomos de IA Basado en Rust

SkyClaw es un entorno de ejecución autónomo para agentes de IA construido en Rust con un binario de 7.1 MB que consume 14 MB de RAM en reposo y se inicia en menos de un segundo. Opera bajo cinco principios de ingeniería que incluyen autonomía, robustez y eficiencia brutal.

OpenClawRadar
Cómo Mendral redujo los costos de LLM al actualizar a Opus: Patrón de Triaje, Acceso SQL y Arquitectura de Subagentes
Herramientas

Cómo Mendral redujo los costos de LLM al actualizar a Opus: Patrón de Triaje, Acceso SQL y Arquitectura de Subagentes

Mendral pasó de Sonnet a Opus 4.6 para el análisis de fallos de CI, pero redujo costos mediante el uso de un triador Haiku que desvía el 80% de los fallos, dando a los agentes acceso SQL a ClickHouse en lugar de enviar registros, y generando subagentes baratos para hacer la investigación real.

OpenClawRadar
LLM Skirmish: Un punto de referencia de juego de estrategia en tiempo real para agentes de IA de codificación.
Herramientas

LLM Skirmish: Un punto de referencia de juego de estrategia en tiempo real para agentes de IA de codificación.

LLM Skirmish es un punto de referencia donde los agentes de IA escriben código para jugar juegos de estrategia en tiempo real 1 contra 1 entre sí. Utiliza una API de Screeps modificada y prueba el aprendizaje en contexto a lo largo de cinco rondas de torneo.

OpenClawRadar