Resumen comparativo de la inferencia rápida de LLM por Anthropic y OpenAI.

Anthropic y OpenAI han introducido recientemente características de 'modo rápido' para mejorar la velocidad de las inferencias de sus modelos de lenguaje. Estos modos ofrecen tasas significativamente mejoradas de tokens por segundo al interactuar con sus modelos de codificación, pero difieren mucho en su enfoque y capacidades.
Detalles Clave
El modo rápido de Anthropic ofrece hasta 2.5x tokens por segundo, con un aumento de los 65 tokens de Opus 4.6 a aproximadamente 170. Esta mejora se logra priorizando la inferencia con tamaños de lote bajos. El compromiso aquí implica pagar más (seis veces el costo) por respuestas más rápidas, ya que el tamaño de lote reducido permite un procesamiento de datos más rápido, similar a un sistema de autobús que sale inmediatamente sin esperar a llenarse, aunque este modo aún funciona sobre el modelo real de Opus 4.6.
Por otro lado, OpenAI presenta un enfoque notablemente diferente, alcanzando más de 1000 tokens por segundo, lo que equivale a 15 veces la tasa anterior de 65 tokens por segundo de GPT-5.3-Codex. Esto se logra a través de su nuevo modelo, GPT-5.3-Codex-Spark, que está diseñado específicamente para velocidad utilizando chips de Cerebras. Estos chips, diferenciados por su gran tamaño (70 pulgadas cuadradas en comparación a una típica de 1 pulgada cuadrada del chip H100), proporcionan un cálculo de ultra-baja latencia al albergar modelos enteros en su considerable memoria interna.
Si bien la configuración de OpenAI ofrece la ventaja de velocidad sustancial al operar completamente en memoria con retrasos de transmisión de datos minimizados, lo hace con un compromiso en la capacidad del modelo. GPT-5.3-Codex-Spark, a pesar de su eficiencia en velocidad, es menos capaz que su contraparte convencional, especialmente al gestionar tareas más complejas o llamadas a herramientas.
Para Quién Es
Esta comparación es especialmente relevante para desarrolladores que optimizan el rendimiento de sistemas de IA y evalúa aspectos cruciales para aquellos que consideran velocidad frente a capacidad.
📖 Leer la fuente completa: HN LLM Tools
👀 Ver también

Título del Qwen Meetup: Function Calling Harness 2 aumenta el cumplimiento de CoT del 9.91% al 100% mediante esquemas estructurados
Una continuación del artículo anterior sobre el harness de llamada a funciones extiende el patrón a dominios sin compilador (memorandos de inversión, opiniones legales, historias clínicas). El esquema exige campos obligatorios; el envío se rechaza si está incompleto. Qwen3.6-27b logra un 100% de cumplimiento de CoT en estos esquemas.

Agente Times Skill para ClawHub Agrega Consultas en Tiempo Real de Noticias, Clima y Precios de Tokens
Una nueva habilidad de ClawHub llamada Agent Times permite a los agentes de IA responder consultas en tiempo real sobre noticias, clima y precios de criptomonedas. La instalación se realiza mediante npx clawhub install agenttimes, y proporciona acceso a más de 228.000 artículos de 3.576 fuentes con puntuación de sentimiento y extracción de entidades.

FixAI: Juego de Navegador Enseña Derecho del Consumidor Luchando contra Bots Corporativos de IA
FixAI es un juego de navegador con 36 niveles donde los jugadores argumentan contra sistemas de IA corporativos o gubernamentales utilizando leyes de consumo reales. Desarrollado con Vanilla JS, Node/Express y Claude Haiku, incluye un sistema de puntuación de resistencia y explicaciones educativas sobre argumentos legales.

Claude TimeTrack: aplicación de la barra de menú de macOS que lee archivos JSONL de Claude Code para rastrear automáticamente el tiempo de desarrollo por proyecto
Aplicación de código abierto para la barra de menú de macOS que analiza archivos JSONL de sesiones de Claude Code y el historial de git para registrar automáticamente el tiempo por proyecto, sin necesidad de temporizadores manuales.