8 Modelos IA: Codificando TypeScript para un Bot de Telegram

Comparación Práctica de Modelos de IA de Codificación

Un desarrollador realizó una comparación práctica de 8 modelos de IA de codificación al hacer que implementen la misma funcionalidad del mundo real en un proyecto TypeScript existente. El objetivo era ir más allá de los puntos de referencia sintéticos y ver cómo se desempeñan los modelos cuando trabajan con bases de código reales.

La Configuración de la Prueba

El proyecto utilizado fue OpenCode Telegram Bot, un bot de Telegram de código abierto en TypeScript construido con el framework grammY que proporciona una interfaz de Telegram para las capacidades de Opencode. El bot tiene soporte i18n y cobertura de pruebas existente.

La tarea consistió en implementar un comando /rename que renombre la sesión de trabajo actual. Esta funcionalidad afecta todas las capas de la aplicación y requiere manejar múltiples casos límite. La implementación original había sido revertida, proporcionando una línea base limpia para la evaluación.

Cada modelo recibió la misma instrucción en dos fases: primero en modo de planificación (estudiando la base de código y formulando un plan de implementación), luego en modo de codificación. Todas las pruebas se realizaron utilizando Opencode con el modo "thinking" y razonamiento habilitado.

Modelos Evaluados

Claude 4.6 Sonnet ($3.00 entrada/$15.00 salida por 1M tokens)
Claude 4.6 Opus ($5.00/$25.00)
GLM 5 ($1.00/$3.20)
Kimi K2.5 ($0.60/$3.00)
MiniMax M2.5 ($0.30/$1.20)
GPT 5.3 Codex (alto) ($1.75/$14.00)
GPT 5.4 (alto) ($2.50/$15.00)
Gemini 3.1 Pro (alto) ($2.00/$12.00)

Los datos del Índice de Codificación y del Índice Agéntico provienen de Artificial Analysis. Todos los modelos se accedieron a través de OpenCode Zen, un proveedor del equipo de OpenCode que prueba modelos para compatibilidad con su herramienta.

Metodología de Evaluación

Se utilizaron cuatro métricas:

Costo de API ($) - Costo total de todas las llamadas a la API durante la tarea, incluidos los subagentes
Tiempo de ejecución (mm:ss) - Tiempo total de trabajo del modelo
Corrección de implementación (0-10) - Qué tan bien coincide el comportamiento con los requisitos y casos límite
Calidad técnica (0-10) - Calidad de ingeniería de la solución

Para las puntuaciones de corrección y calidad, se utilizó la implementación existente de /rename para derivar criterios de evaluación detallados que cubren integración de comandos, flujo principal, manejo de errores, cancelación, i18n, documentación, arquitectura, gestión de estado, pruebas y deuda técnica. La evaluación fue realizada por GPT-5.3 Codex contra una rúbrica estructurada, con múltiples ejecuciones que mostraron una variación dentro de ±0.5 puntos.

Hallazgos Clave

Los resultados mostraron que GPT-5.4 (alto) logró la puntuación más alta de corrección de implementación con 57 de 69 en el Índice Agéntico. GLM 5 demostró una fuerte relación costo-rendimiento a $1.00/$3.20 por 1M tokens con un Índice de Codificación de 53. El experimento reveló que los modelos económicos de código abierto de China se están acercando a los propietarios en tareas prácticas de codificación, aunque los puntos de referencia por sí solos no cuentan toda la historia.

📖 Read the full source: r/LocalLLaMA

Comparación de 8 Modelos de Codificación con IA en la Implementación de Funciones de TypeScript del Mundo Real

Comparación Práctica de Modelos de IA de Codificación

La Configuración de la Prueba

Modelos Evaluados

Metodología de Evaluación

Hallazgos Clave

👀 Ver también

Automatiza las reuniones diarias en podcasts personales de Spotify con OpenClaw y la CLI de Save to Spotify

Servidor MCP Indexa Bases de Código en un Grafo de Conocimiento para una Reducción de Tokens de 10x

Jan Agrega Instalación de OpenClaw con Un Solo Clic con Integración del Modelo Base Jan-v3

AgentHandover: Aplicación de la barra de menú de Mac que crea habilidades de agente observando tu pantalla