Bifrost LLM Gateway : 11 µs de surcoût, proxy Go unique

Qu'est-ce que Bifrost

Bifrost est un proxy LLM prêt à l'emploi écrit en Go, conçu spécifiquement pour les environnements auto-hébergés. Il achemine les requêtes vers OpenAI, Anthropic, Azure, Bedrock et d'autres fournisseurs tout en gérant la bascule, la mise en cache et les contrôles budgétaires.

Benchmarks de performance

Le développeur a mesuré une capacité soutenue de 5 000 requêtes par seconde :

Bifrost (Go) : ~11 microsecondes de surcharge par requête
LiteLLM (Python) : ~8 millisecondes de surcharge par requête

Cela représente environ 700 fois moins de surcharge.

Comparaison de l'utilisation mémoire

À même débit :

Bifrost : ~50 Mo de RAM de base, reste stable sous charge
LiteLLM : ~300-400 Mo de base, atteint 800 Mo+ en cas de trafic intense

Le développeur note que l'exécution de LiteLLM à plus de 2 000 RPS nécessite une mise à l'échelle horizontale et des instances importantes, tandis que Bifrost gère 5 000 RPS sur un VPS à 20 $/mois.

Stabilité sous charge

Les performances de Bifrost restent constantes sous charge, avec la même latence à 100 RPS ou 5 000 RPS. En revanche, LiteLLM devient imprévisible lors des pics de trafic : la variance de latence augmente, la mémoire monte en flèche et les pauses du ramasse-miettes surviennent au pire moment.

Fonctionnalités uniques

Bifrost inclut une passerelle MCP qui connecte plus de 10 serveurs d'outils MCP, gère la découverte, l'espace de noms, les contrôles de santé et le filtrage des outils par requête. LiteLLM ne prend pas en charge MCP.

Déploiement et migration

Le déploiement se fait avec un seul binaire, sans environnements virtuels Python, sans problèmes de dépendances et sans Docker requis. Vous le copiez sur le serveur et vous l'exécutez.

Pour la migration, l'API est compatible avec OpenAI. Vous changez l'URL de base et conservez le code existant, la plupart des migrations prenant moins d'une heure.