Inferência Rápida de LLMs: Anthropic vs OpenAI

Anthropic e OpenAI introduziram recentemente recursos de 'modo rápido' para aumentar a velocidade das inferências de seus modelos de linguagem. Esses modos oferecem taxas significativamente melhoradas de tokens por segundo ao interagir com seus modelos de codificação, mas diferem bastante na abordagem e nas capacidades.

Detalhes Principais

O modo rápido da Anthropic oferece até 2,5x mais tokens por segundo, com um aumento de 65 tokens do Opus 4.6 para cerca de 170. Esse aprimoramento é alcançado priorizando inferências com tamanhos de lote pequenos. A compensação aqui envolve pagar mais (seis vezes o custo) por respostas mais rápidas, pois o tamanho reduzido do lote permite um processamento de dados mais rápido, semelhante a um sistema de ônibus que parte imediatamente sem esperar para encher, embora esse modo ainda seja executado no modelo real Opus 4.6.

Por outro lado, a OpenAI apresenta uma abordagem marcadamente diferente, alcançando mais de 1000 tokens por segundo, o que é 15x a taxa anterior de 65 tokens por segundo do GPT-5.3-Codex. Isso é realizado por meio de seu novo modelo, GPT-5.3-Codex-Spark, que foi projetado especificamente para velocidade utilizando chips Cerebras. Esses chips, distinguidos por seu grande tamanho (70 polegadas quadradas em comparação com uma polegada quadrada típica de um chip H100), fornecem computação de latência ultrabaixa ao acomodar modelos inteiros em sua substancial memória interna.

Embora a configuração da OpenAI ofereça a vantagem substancial de velocidade de operar inteiramente na memória com atrasos minimizados no fluxo de dados, ela o faz com um comprometimento na capacidade do modelo. O GPT-5.3-Codex-Spark, apesar de sua eficiência de velocidade, é menos capaz do que sua contraparte padrão, especialmente quando se trata de gerenciar tarefas mais complexas ou chamadas de ferramentas.

Para Quem É

Essa comparação é particularmente relevante para desenvolvedores que otimizam o desempenho de sistemas de IA e avalia aspectos cruciais para aqueles que consideram velocidade versus capacidade.

📖 Leia a fonte completa: HN LLM Tools

Visão Comparativa da Inferência Rápida de LLMs pela Anthropic e OpenAI

Detalhes Principais

Para Quem É

👀 See Also

O Token Enhancer reduz o uso de tokens em páginas da web para agentes de IA.

Aplicativo Móvel QCAI Adiciona Controle de Gateway OpenClaw com VPN Tailscale Nativa

Biblioteca de Fluxos de Trabalho Claude Agora Rastreia e Avalia Fluxos do Reddit Automaticamente

Fewshell: Um Copiloto SSH Auto-hospedado que Recusa Executar Comandos sem Aprovação Humana