ThumbGate implementa el patrón de agente de lenguaje natural de Tsinghua para la seguridad de la IA.

✍️ OpenClawRadar📅 Publicado: 5 de abril de 2026🔗 Source
ThumbGate implementa el patrón de agente de lenguaje natural de Tsinghua para la seguridad de la IA.
Ad

Implementación ThumbGate del Patrón NLAH

El patrón Natural-Language Agent Harness (NLAH) del artículo de Tsinghua (arxiv 2603.25723) formaliza el tratamiento de las capas de seguridad de agentes de IA como objetos de primera clase con componentes específicos. La herramienta de código abierto ThumbGate implementa este patrón con mapeos concretos a sistemas de producción.

Mapeo de Componentes

ThumbGate mapea los cuatro componentes NLAH a implementaciones prácticas:

  • Contratos → Reglas de prevención generadas automáticamente a partir de retroalimentación negativa
  • Puertas de Verificación → Ganchos PreToolUse que interceptan cada llamada a herramienta antes de la ejecución
  • Estado Duradero → Base de datos de lecciones SQLite+FTS5 que persiste entre sesiones
  • Adaptadores → Adaptadores de servidor MCP para Claude Code, Cursor, Codex, Gemini, Amp
Ad

Perspectivas Clave de Implementación

Los desarrolladores descubrieron que las reglas de prompt fallan silenciosamente (los agentes pueden razonar alrededor de ellas), mientras que las puertas de verificación fallan ruidosamente (los agentes reciben respuestas de bloqueo y deben adaptarse). Utilizan Muestreo de Thompson para manejar niveles de severidad inciertos, donde las nuevas reglas comienzan como advertencias y se promueven a bloqueos duros basados en retroalimentación.

Los detalles completos de implementación y mapeo están disponibles en su documentación profunda.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Extensión de Claude para VS Code Deslizador de Esfuerzo de Razonamiento Envía Valores Inconsistentes
Herramientas

Extensión de Claude para VS Code Deslizador de Esfuerzo de Razonamiento Envía Valores Inconsistentes

El control deslizante de esfuerzo de razonamiento en la extensión de Claude para VS Code envía valores numéricos inconsistentes al modelo, con un mapeo no monótono donde mover el control hacia arriba puede enviar un número más bajo.

OpenClawRadar
Claude Code a escala: Cómo la búsqueda agéntica evita los modos de fallo de RAG en grandes bases de código
Herramientas

Claude Code a escala: Cómo la búsqueda agéntica evita los modos de fallo de RAG en grandes bases de código

Claude Code utiliza un recorrido agéntico del sistema de archivos en lugar de RAG basado en incrustaciones, eliminando los problemas de índices obsoletos. El artículo detalla cinco puntos de extensión (CLAUDE.md, hooks, skills, plugins, MCP) y la filosofía de "el arnés es más importante que el modelo" para repositorios con millones de líneas.

OpenClawRadar
AskAlf: Plataforma de orquestación multiagente de código abierto para flujos de trabajo de IA autohospedados.
Herramientas

AskAlf: Plataforma de orquestación multiagente de código abierto para flujos de trabajo de IA autohospedados.

AskAlf es una plataforma de orquestación de múltiples agentes de código abierto que se ejecuta en tu propio hardware, creando dinámicamente trabajadores especializados que se coordinan a través de un sistema autónomo con una memoria cognitiva de 10 capas almacenada en pgvector.

OpenClawRadar
Corrección de Fuga de Memoria de Claude Code para Homelabs Linux
Herramientas

Corrección de Fuga de Memoria de Claude Code para Homelabs Linux

Un desarrollador descubrió que Claude Code tiene una grave fuga de memoria en glibc malloc que consumió 400GB de RAM y colapsó su homelab Proxmox, luego creó una solución de protección de dos niveles con un shim LD_PRELOAD y un watchdog.

OpenClawRadar