Código Fuente de Claude: Anti-Destilación, Modo Encubierto y Detección de Frustración

Anthropic envió accidentalmente un archivo .map con su paquete npm de Claude Code que contenía el código fuente completo y legible de la herramienta CLI. El paquete ha sido retirado desde entonces, pero el código fue ampliamente reflejado y analizado en Hacker News. Esto sigue a otra filtración reciente de la especificación del modelo de Anthropic.

Anti-destilación: inyectando herramientas falsas para envenenar imitadores

En claude.ts (líneas 301-313), hay una bandera llamada ANTI_DISTILLATION_CC. Cuando está habilitada, Claude Code envía anti_distillation: ['fake_tools'] en sus solicitudes API, indicando al servidor que inyecte silenciosamente definiciones de herramientas señuelo en el mensaje del sistema. Esto está diseñado para contaminar datos de entrenamiento si alguien está grabando tráfico API para entrenar modelos competidores.

La activación requiere cuatro condiciones: la bandera de tiempo de compilación ANTI_DISTILLATION_CC, el punto de entrada CLI, un proveedor API de primera parte y la bandera GrowthBook tengu_anti_distill_fake_tool_injection devolviendo verdadero. Un proxy MITM que elimine el campo anti_distillation de los cuerpos de las solicitudes lo evitaría por completo. Establecer la variable de entorno CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS en un valor verdadero desactiva todo el mecanismo.

Un segundo mecanismo anti-destilación en betas.ts (líneas 279-298) implementa la sumarización de texto del conector del lado del servidor. Cuando está habilitado, la API almacena en búfer el texto del asistente entre llamadas a herramientas, lo resume y devuelve el resumen con una firma criptográfica. Esto significa que las grabaciones de tráfico API solo capturarían resúmenes, no cadenas de razonamiento completas.

Modo encubierto: IA que oculta su IA

El archivo undercover.ts implementa un modo que elimina todos los rastros de elementos internos de Anthropic cuando Claude Code se utiliza en repositorios no internos. Instruye al modelo a nunca mencionar nombres en clave internos como "Capybara" o "Tengu", canales internos de Slack, nombres de repositorios o la frase "Claude Code" misma. La línea 15 establece: "NO hay fuerza-OFF. Esto protege contra filtraciones de nombres en clave del modelo".

Puedes forzarlo a ON con CLAUDE_CODE_UNDERCOVER=1, pero no hay forma de forzarlo a off. En compilaciones externas, toda la función se elimina por código muerto para devolver trivialidades. Esto significa que los commits y PRs escritos por IA de empleados de Anthropic en proyectos de código abierto no tendrán indicación de que una IA los escribió.

Detección de frustración mediante regex

Otros hallazgos

Atestación nativa del cliente por debajo del entorno de ejecución JS
250,000 llamadas API desperdiciadas por día
KAIROS: un modo de agente autónomo no lanzado

La filtración ocurrió solo diez días después de que Anthropic enviara amenazas legales a OpenCode, obligándolos a eliminar la autenticación integrada de Claude porque herramientas de terceros estaban usando las APIs internas de Claude Code para acceder a Opus a tarifas de suscripción en lugar de precios por token.

📖 Read the full source: HN AI Agents

Filtración del Código Fuente de Claude Revela Anti-Distilación, Modo Encubierto y Detección de Frustración

Anti-destilación: inyectando herramientas falsas para envenenar imitadores

Modo encubierto: IA que oculta su IA

Detección de frustración mediante regex

Otros hallazgos

👀 Ver también

Campaña anti-IA de Polaroid contra la fatiga digital con anuncios impresos analógicos

Caída de precios de suscripciones de IA: Por qué su factura empresarial está a punto de multiplicarse por 10

Claude Cowork para Windows ARM64 Lanzado con Verificador de Compatibilidad

Desarrollador Busca Consejos de Arquitectura para Servir Modelos Embed, Rerank y Zero-Shot en 8GB de VRAM