Comparación de 8 Modelos de Codificación con IA en la Implementación de Funciones de TypeScript del Mundo Real

Comparación Práctica de Modelos de IA de Codificación
Un desarrollador realizó una comparación práctica de 8 modelos de IA de codificación al hacer que implementen la misma funcionalidad del mundo real en un proyecto TypeScript existente. El objetivo era ir más allá de los puntos de referencia sintéticos y ver cómo se desempeñan los modelos cuando trabajan con bases de código reales.
La Configuración de la Prueba
El proyecto utilizado fue OpenCode Telegram Bot, un bot de Telegram de código abierto en TypeScript construido con el framework grammY que proporciona una interfaz de Telegram para las capacidades de Opencode. El bot tiene soporte i18n y cobertura de pruebas existente.
La tarea consistió en implementar un comando /rename que renombre la sesión de trabajo actual. Esta funcionalidad afecta todas las capas de la aplicación y requiere manejar múltiples casos límite. La implementación original había sido revertida, proporcionando una línea base limpia para la evaluación.
Cada modelo recibió la misma instrucción en dos fases: primero en modo de planificación (estudiando la base de código y formulando un plan de implementación), luego en modo de codificación. Todas las pruebas se realizaron utilizando Opencode con el modo "thinking" y razonamiento habilitado.
Modelos Evaluados
- Claude 4.6 Sonnet ($3.00 entrada/$15.00 salida por 1M tokens)
- Claude 4.6 Opus ($5.00/$25.00)
- GLM 5 ($1.00/$3.20)
- Kimi K2.5 ($0.60/$3.00)
- MiniMax M2.5 ($0.30/$1.20)
- GPT 5.3 Codex (alto) ($1.75/$14.00)
- GPT 5.4 (alto) ($2.50/$15.00)
- Gemini 3.1 Pro (alto) ($2.00/$12.00)
Los datos del Índice de Codificación y del Índice Agéntico provienen de Artificial Analysis. Todos los modelos se accedieron a través de OpenCode Zen, un proveedor del equipo de OpenCode que prueba modelos para compatibilidad con su herramienta.
Metodología de Evaluación
Se utilizaron cuatro métricas:
- Costo de API ($) - Costo total de todas las llamadas a la API durante la tarea, incluidos los subagentes
- Tiempo de ejecución (mm:ss) - Tiempo total de trabajo del modelo
- Corrección de implementación (0-10) - Qué tan bien coincide el comportamiento con los requisitos y casos límite
- Calidad técnica (0-10) - Calidad de ingeniería de la solución
Para las puntuaciones de corrección y calidad, se utilizó la implementación existente de /rename para derivar criterios de evaluación detallados que cubren integración de comandos, flujo principal, manejo de errores, cancelación, i18n, documentación, arquitectura, gestión de estado, pruebas y deuda técnica. La evaluación fue realizada por GPT-5.3 Codex contra una rúbrica estructurada, con múltiples ejecuciones que mostraron una variación dentro de ±0.5 puntos.
Hallazgos Clave
Los resultados mostraron que GPT-5.4 (alto) logró la puntuación más alta de corrección de implementación con 57 de 69 en el Índice Agéntico. GLM 5 demostró una fuerte relación costo-rendimiento a $1.00/$3.20 por 1M tokens con un Índice de Codificación de 53. El experimento reveló que los modelos económicos de código abierto de China se están acercando a los propietarios en tareas prácticas de codificación, aunque los puntos de referencia por sí solos no cuentan toda la historia.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Automatiza las reuniones diarias en podcasts personales de Spotify con OpenClaw y la CLI de Save to Spotify
OpenClaw se ejecuta diariamente a las 7 a.m., extrae hilos de Slack + notificaciones de GitHub + calendario, los resume en mp3 y los sube como un episodio privado mediante la CLI Save to Spotify. Funciona en Free y Premium.

Servidor MCP Indexa Bases de Código en un Grafo de Conocimiento para una Reducción de Tokens de 10x
Un nuevo servidor MCP llamado codebase-memory-mcp analiza bases de código en un grafo de conocimiento persistente usando tree-sitter, reduciendo el uso de tokens al menos 10 veces para consultas estructurales. Evaluado en 35 repositorios del mundo real, reemplaza la exploración archivo por archivo con consultas de grafos.

Jan Agrega Instalación de OpenClaw con Un Solo Clic con Integración del Modelo Base Jan-v3
Jan ahora admite la instalación con un solo clic de OpenClaw con integración directa al modelo Jan-v3-base, manteniendo todas las operaciones locales y privadas en tu computadora.

AgentHandover: Aplicación de la barra de menú de Mac que crea habilidades de agente observando tu pantalla
AgentHandover es una aplicación de código abierto para la barra de menú de Mac que utiliza Gemma 4 ejecutándose localmente a través de Ollama para observar tu pantalla y convertir flujos de trabajo repetidos en archivos de Habilidades estructurados que cualquier agente puede seguir. Ofrece tanto Grabación Enfocada para tareas específicas como Descubrimiento Pasivo que detecta patrones a partir de la observación en segundo plano.