Roteamento Adaptativo de Inferência: Proposta em 5 Etapas

O Que É Isso

Uma proposta técnica enviada à equipe de Produto e Engenharia da Anthropic em abril de 2026 para rotear automaticamente consultas de IA para níveis de modelo apropriados com base em uma avaliação de complexidade antes que o processamento computacional caro comece.

O Problema

Atualmente, toda consulta enviada ao Claude — desde perguntas simples como "quanto tempo devo cozinhar um ovo" até prompts técnicos de 2.000 palavras — é direcionada por padrão para um modelo de capacidade total. O sistema não avalia a complexidade antes de comprometer recursos de computação, o que é ineficiente em escala. A inferência de IA é o componente de consumo de energia em data centers que mais cresce, projetado para atingir 12% da eletricidade dos EUA até 2028.

A Solução Proposta: Processo de Cinco Etapas

Etapa 1 — Contar: Medir o comprimento da consulta em caracteres, contagem de frases e presença de anexos ou instruções de múltiplas partes
Etapa 2 — Classificar: Direcionar para um nível de modelo com base na pontuação de complexidade. Frases únicas e curtas vão por padrão para modelos leves; prompts com múltiplos parágrafos e contexto são direcionados para modelos mais capazes
Etapa 3 — Ler: O modelo atribuído processa a consulta normalmente
Etapa 4 — Responder: A resposta é retornada ao usuário
Etapa 5 — Escalar: Se o usuário sinalizar insatisfação (reclama, pede para aprofundar, reformula), o sistema sobe automaticamente para um modelo mais capaz para o acompanhamento

Como Funciona a Pontuação de Complexidade

O sistema usa uma pontuação de pré-roteamento de cinco fatores: contagem de caracteres, contagem de frases, presença de anexos, densidade de palavras interrogativas e profundidade da conversa anterior. Isso classificaria corretamente uma porcentagem substancial de consultas sem qualquer inferência de modelo. O comprimento em caracteres funciona como um sinal de primeira ordem porque a maioria das consultas simples é curta e a maioria das consultas complexas é longa.

Design da Experiência do Usuário

Os usuários não devem ver este sistema ou ser solicitados a escolher um modelo. A interface permanece idêntica e o roteamento é invisível. Se uma resposta for insuficiente, os usuários pedem mais e recebem mais. Isso remove o atrito de pedir a usuários não técnicos que escolham entre níveis de modelo como Haiku, Sonnet e Opus.

Impacto e Racional

Na escala da Anthropic, mesmo uma redução de 20–30% na computação média por consulta representa uma redução significativa no custo de inferência e na carga de energia. A proposta posiciona a Anthropic à frente dos desafios regulatórios e de relações públicas em torno do consumo de energia em data centers, que está se tornando uma questão legislativa em várias jurisdições.

📖 Read the full source: r/ClaudeAI