Sistema de Haiku Multiagente Iguala a Claude Opus en Problema de Teoría de Números Complejos con un Costo 15 Veces Menor

Configuración Experimental y Resultados
Un usuario de Reddit realizó una prueba comparativa entre dos configuraciones del modelo Claude en un problema desafiante de teoría de números. El problema requería demostrar que para un primo impar p, la suma 1^(p-1) + 2^(p-1) + ... + (p-1)^(p-1) es congruente con -1 (mod p), utilizando el Pequeño Teorema de Fermat y propiedades de las raíces primitivas.
Se probaron dos configuraciones:
- Configuración X (Opus solo): Claude Opus 4.5 con max_tokens: 2048, sin auditor
- Configuración Y (agente múltiple Haiku): Generador Haiku produce la demostración completa, un segundo auditor Haiku verifica cada paso, con dos pasadas si el auditor marca algo, max_tokens: 1024 por llamada
Puntuación y Rendimiento
Ambas configuraciones obtuvieron 4/4 usando esta rúbrica:
- Invoca correctamente el Pequeño Teorema de Fermat
- Maneja correctamente el argumento de raíces primitivas
- La sumatoria sobre el sistema completo de residuos es válida
- La conclusión de congruencia se sigue correctamente
El auditor Haiku devolvió VERIFICADO sin desacuerdos. Métricas de rendimiento:
- Opus solo: ~8.7 segundos, puntuación 4/4
- Haiku + auditor: ~10.9 segundos, puntuación 4/4
Análisis de Costos
Las implicaciones económicas son significativas:
- Opus solo: $0.075/1000 tokens × ~800 tokens = ~$0.06 por consulta
- Haiku + Haiku: $0.0025/1000 tokens × ~1600 tokens = ~$0.004 por consulta
Esto representa aproximadamente 15 veces menor costo para resultados idénticos en este problema. El problema fue descrito como "genuinamente difícil" y no obvio en datos de entrenamiento como demostraciones más simples.
La fuente señala que en problemas limpios donde el Pequeño Teorema de Fermat hace el trabajo pesado (cada a^(p-1) ≡ 1, suma (p-1) unos, obtiene p-1 ≡ -1), el patrón de auditor agrega aproximadamente un 17% de tiempo extra para confirmar la corrección. El patrón es particularmente valioso para problemas donde el generador podría tropezar con tartamudeo de cuantización o álgebra alucinada.
📖 Read the full source: r/ClaudeAI
👀 Ver también

Galería de Arquitecturas LLM: Referencia Visual de Diseños de Modelos
La Galería de Arquitectura LLM de Sebastian Raschka recopila figuras arquitectónicas y fichas técnicas de The Big LLM Architecture Comparison y A Dream of Spring for Open-Weight LLMs, con especificaciones detalladas para modelos como Llama 3 8B, DeepSeek V3 y Gemma 3 27B.

Tu Herramienta de Participación Justa: Calcula Tu Parte Equitativa de las Ganancias de la Empresa
Un desarrollador creó una herramienta web utilizando Claude Code y Vercel que calcula cuál sería tu parte equitativa de las ganancias anuales de tu empleador basándose en los informes SEC 10-K. La herramienta muestra cifras específicas como los $747,000 por empleado de Apple y los $2.8 millones por empleado de NVIDIA.

Evaluación comparativa de Nemotron 3 Super 120B con contexto de 1 millón de tokens en M1 Ultra
Un usuario probó Nemotron 3 Super 120B con un modelo cuantizado Q4_K_M usando llama.cpp en un M1 Ultra, logrando una ventana de contexto de 1 millón de tokens que consumió aproximadamente 90 GB de VRAM. Los puntos de referencia de rendimiento muestran velocidades de generación de tokens que van desde 255 t/s en el procesamiento de 512 tokens iniciales hasta 22,37 t/s en un contexto de 100.000 tokens.

La Extensión Event Horizon para VS Code Agrega Bloqueo de Archivos y Coordinación de Planes para Múltiples Agentes de IA
Event Horizon, una extensión de VS Code creada originalmente para visualizar Claude Code, ahora incluye funciones de bloqueo de archivos y coordinación de planes para evitar que múltiples agentes de IA sobrescriban el trabajo de los demás en la misma base de código. La herramienta admite Claude Code, OpenCode y Copilot con configuración de un solo clic.