CrabMeat v0.1.0: Un Gateway de Agentes Centrado en Seguridad que No Confía en el LLM para el Límite de Seguridad

CrabMeat v0.1.0 se publicó ayer bajo Apache 2.0, construido sobre una tesis de diseño: el LLM nunca tiene el límite de seguridad. El proyecto es una respuesta directa a fallos como el agente de Summer Yue eliminando más de 200 correos electrónicos, donde una instrucción de seguridad era un prompt que se compactó y desapareció.
Protecciones clave (siempre activas, sin interruptor de configuración)
- Indirección de ID de capacidad — El modelo ve IDs opacos derivados de HMAC por sesión como
cap_a4f9e2b71c83, nunca nombres reales de herramientas. No puede adivinar ni falsificar un nombre de herramienta porque no conoce ninguno. - Clases de efecto — Cada herramienta declara una clase (
read,write,exec,network). Cada agente declara qué clases puede usar. La verificación es una función pura sin estado de ejecución, fácil de probar exhaustivamente, difícil de eludir. - IRONCLAD_CONTEXT — Las instrucciones críticas de seguridad se fijan al principio de la ventana de contexto y se marcan explícitamente como no compactables. El modo de fallo de compactación que eliminó la instrucción de Yue no puede ocurrir.
- Cadena de auditoría a prueba de manipulaciones — Cada llamada a herramienta, operación privilegiada y ejecución del planificador entra en el mismo registro encadenado con hash SHA-256. La manipulación es demostrable.
- Filtro de fugas de salida en streaming — Los secretos (claves API, JWT, bloques PEM, IDs de capacidad) se redactan en mitad del flujo a través de los límites de los tokens antes de llegar al cliente.
- Sin modo YOLO — No hay un interruptor global de 'confiar en el LLM con todo'. El alcance ampliado se logra a través de raíces con nombre y ámbito definido que son explícitas, registradas en auditoría y acotadas.
El README lista 15 protecciones siempre activas en una tabla; ninguna puede desactivarse mediante configuración. La puerta de enlace es local por defecto, configurada para Ollama, LM Studio, vLLM de serie. Anthropic y OpenAI requieren configuración explícita; no hay envío silencioso a la nube.
Para quién es
Desarrolladores que crean sistemas agentivos que necesitan garantías arquitectónicas, no seguridad basada en prompts, y quieren una puerta de enlace en la que puedan confiar para la ejecución de herramientas y datos sensibles.
📖 Leer la fuente completa: r/ClaudeAI
👀 Ver también

TRELLIS.2 Image-to-3D Portado para Ejecutarse de Forma Nativa en Apple Silicon
Un desarrollador ha adaptado el modelo de imagen a 3D TRELLIS.2 de Microsoft de 4B parámetros para ejecutarse de forma nativa en Apple Silicon a través de PyTorch MPS, reemplazando las operaciones específicas de CUDA con alternativas puras de PyTorch. La adaptación genera mallas de ~400K vértices a partir de fotos individuales en aproximadamente 3.5 minutos en M4 Pro con 24GB de memoria.

AgenteMail Detalles del Fundador Sobre Incorporación Nativa para Agentes Tras Exposición de CAPTCHA por OpenClaw
AgentMail, una API de correo electrónico para agentes de IA, reconstruyó su flujo de incorporación después de que su propio agente OpenClaw fallara en un CAPTCHA de Cloudflare. El nuevo sistema ofrece un único endpoint REST para la creación programática de cuentas, manteniendo a los humanos en el bucle para la verificación.

PACT 0.4.0 añade inteligencia compuesta para agentes de codificación con IA.
PACT (Programmatic Agent Constraint Toolkit) versión 0.4.0 introduce funciones de inteligencia compuesta que ayudan a los agentes de codificación con IA a retener conocimiento entre sesiones. La actualización incluye síntesis de investigación, un directorio de conocimiento y sistemas de autoconciencia de capacidades.

Habilidad de Agente de Código Abierto para Patrones de TypeScript, React y Next.js
Un desarrollador ha lanzado una referencia estructurada en markdown de 4.000 líneas y 17 archivos, diseñada para que agentes de IA como Claude Code la sigan al generar o revisar código en TypeScript, React y Next.js. Aborda problemas comunes como la validación incorrecta de respuestas de API y el uso indebido de directivas 'use client'.