Bifrost LLM Gateway: Sobrecarga de 11 Microssegundos, Binário Único em Go

O que é o Bifrost
Bifrost é um proxy LLM pronto para uso escrito em Go especificamente para ambientes auto-hospedados. Ele roteia solicitações para OpenAI, Anthropic, Azure, Bedrock e outros provedores enquanto gerencia failover, cache e controles de orçamento.
Benchmarks de Desempenho
O desenvolvedor mediu 5.000 solicitações por segundo sustentadas:
- Bifrost (Go): ~11 microssegundos de sobrecarga por solicitação
- LiteLLM (Python): ~8 milissegundos de sobrecarga por solicitação
Isso representa aproximadamente uma diferença de 700x na sobrecarga.
Comparação de Uso de Memória
Na mesma taxa de transferência:
- Bifrost: ~50MB de RAM de base, permanece estável sob carga
- LiteLLM: ~300-400MB de base, atinge picos de 800MB+ sob tráfego intenso
O desenvolvedor observa que executar o LiteLLM em 2k+ RPS requer escalonamento horizontal e instâncias de tamanho considerável, enquanto o Bifrost lida com 5k RPS em um VPS de US$ 20/mês.
Estabilidade Sob Carga
O desempenho do Bifrost permanece constante sob carga com a mesma latência em 100 RPS ou 5.000 RPS. Em contraste, o LiteLLM fica imprevisível quando o tráfego aumenta - a variação de latência aumenta, a memória atinge picos e as pausas de GC ocorrem nos piores momentos.
Recursos Exclusivos
Bifrost inclui um gateway MCP que conecta mais de 10 servidores de ferramentas MCP, gerencia descoberta, namespace, verificações de saúde e filtragem de ferramentas por solicitação. O LiteLLM não faz MCP.
Implantação e Migração
A implantação é um único binário sem virtualenvs Python, sem problemas de dependência e sem necessidade de Docker. Você copia para o servidor e executa.
Para migração, a API é compatível com OpenAI. Você altera a URL base e mantém o código existente, com a maioria das migrações levando menos de uma hora.
Disponibilidade de Código Aberto
O projeto é de código aberto e está disponível em github.com/maximhq/bifrost.
📖 Leia a fonte completa: r/clawdbot
👀 See Also

yburn: Ferramenta para auditar e substituir tarefas cron desnecessárias de agentes de IA
yburn é uma ferramenta Python que audita tarefas cron de agentes de IA e substitui aquelas que não precisam de LLMs por scripts Python independentes. O criador descobriu que 58% de 98 tarefas cron eram tarefas puramente mecânicas, como verificações de saúde do sistema e backups do git.

Servidor MCP para Dados de Trens Italianos: Atrasos em Tempo Real, Partidas e Horários no Claude
Um desenvolvedor criou um servidor MCP não oficial para a Trenitalia que fornece cinco ferramentas para consultar dados de trens italianos através do Claude, incluindo painéis de partidas/chegadas em tempo real, rastreamento de trens e horários com enriquecimento de atrasos ao vivo.

Mymir: Um Grafo de Projetos Open-Source para Agentes de Codificação via MCP
Mymir fornece aos agentes um mapa de projeto baseado em grafo com dependências, decisões, critérios de aceitação e notas de execução anteriores, entregue via MCP para evitar reexplicar o estado entre sessões.

A Skillware adiciona o prompt_rewriter para compressão determinística de tokens em loops de agentes da API Claude.
A Skillware incorporou uma nova habilidade de reescrita de prompts que comprime prompts em 50-80% antes de enviar para a API Claude, reduzindo custos em loops agentivos enquanto mantém comportamento estável através de compressão determinística.