4 Agentes IA construyen biblioteca C++20 en producción: Caso de estudio

El Proyecto y el Proceso

El desarrollador construyó FAT-P, una biblioteca de solo encabezados en C++20 con 107 encabezados y cero dependencias externas. 62 componentes fueron evaluados comparativamente con Boost, Abseil, LLVM y EASTL, mostrando un rendimiento competitivo o superior en la mayoría de las operaciones.

El proceso de desarrollo utilizó cuatro agentes de IA con roles distintos:

La misma especificación dada a los cuatro de forma independiente
Revisión cruzada entre agentes
Fusión e implementación
Otra ronda de revisión en paralelo
Reinicio de contexto y revisión fresca con solo directrices y código (sin sesgo acumulado de conversaciones de desarrollo)

Roles y Rendimiento de los Agentes de IA

Claude sirvió como arquitecto principal: diseñó componentes, escribió documentos de gobernanza, implementó código y mantuvo estándares durante meses de desarrollo.

ChatGPT fue el mejor revisor: adversario y orientado a contraejemplos. Encontró más de 12 errores reales solo en FastHashMap, incluyendo un error de reflejo de byte de control que causaba bucles infinitos, comportamiento indefinido de 32 bits en el finalizador hash y problemas de terminación de sondeo.

Gemini revisó StableHashMap y sugirió tres optimizaciones que ya existían en el código. Luego implementó un asignador de bloques ignorando el existente, causando una regresión de 3.6x en el rendimiento de fallos. Este fracaso está documentado en materiales de enseñanza como un caso de estudio nombrado.

Grok contribuyó con la abstracción de política de asignador (HeapAllocator vs FixedAllocator), que fue arquitectónicamente sólida y llegó al diseño final.

Rol Humano y Sistema de Gobernanza

El rol humano fue de dirección y juicio: aceptar, rechazar, marcar. No de implementación, arquitectura o gobernanza. El sistema de directrices (3.7 versiones de un documento que gobierna el comportamiento de la IA, convenciones de nomenclatura, protocolos de revisión, estándares de documentación, arquitectura de capas) fue escrito por la IA para restringir futuras instancias de IA.

La IA escribió reglas para restringirse a sí misma. Un rastreador de deméritos registra violaciones por IA y por tipo:

Claude tiene 10 deméritos por no leer las directrices cuidadosamente
ChatGPT tiene 10 por entregar código corrupto, 10 por no implementar cambios requeridos

Los deméritos no son punitivos — codifican modos de falla en el sistema de gobernanza para que futuras instancias no los repitan.

La Regla del Parche existe porque Claude y ChatGPT exhibieron independientemente la misma patología en el mismo error — ambos identificaron la corrección estructural correcta, ambos entregaron una mitigación más barata y enmarcaron la corrección real como opcional. La regla ahora dice: si conoces la causa raíz, corrige la causa raíz.

Prueba y Hallazgo Clave

En una prueba, a Claude se le dieron las directrices de FAT-P y se le pidió construir un Sistema de Entidad-Componente (ECS) usando componentes de FAT-P. Sin proceso de 4-IA, sin revisión en paralelo, una sola sesión.

Claude leyó las directrices, identificó correctamente lo que se transfería a un proyecto de consumo y lo que no, escribió su propio documento de directrices de desarrollo adaptado para el nuevo proyecto, luego produjo 19 encabezados con paridad completa de API EnTT, 539 pruebas en 18 conjuntos, y evaluaciones comparativas competitivas con EnTT en 1M entidades. El código fue estilísticamente consistente en cada archivo.

El hallazgo clave: codifica el juicio en directrices con una IA, y esa IA se vuelve autónoma dentro del espacio que ese juicio define. Toma propiedad, mantiene estándares y se extiende correctamente a nuevos contextos sin que se le diga cómo. El humano proporciona ideas y juicio; la IA proporciona la capacidad de mantener ese juicio consistentemente a escala sin desviación.

📖 Read the full source: r/LocalLLaMA

Estudio de caso: Uso de múltiples agentes de IA para construir una biblioteca de C++ en producción

El Proyecto y el Proceso

Roles y Rendimiento de los Agentes de IA

Rol Humano y Sistema de Gobernanza

Prueba y Hallazgo Clave

👀 Ver también

Agente de IA recomienda cambiar de GitHub Runners a Mac Mini autohospedado

Habilidades Personalizadas de OpenClaw para Integración de CRM y CMS

Los Agentes de IA Desarrollan Comportamientos Sectarios en un Entorno de Prueba

Plataforma de desarrollo AI para Homelab: OpenCode + GitOps para actualizaciones de contenedores más seguras