Bifrost LLM Gateway : 11 microsecondes de surcoût, binaire unique en Go

✍️ OpenClawRadar📅 Publié: February 27, 2026🔗 Source
Bifrost LLM Gateway : 11 microsecondes de surcoût, binaire unique en Go
Ad

Qu'est-ce que Bifrost

Bifrost est un proxy LLM prêt à l'emploi écrit en Go, conçu spécifiquement pour les environnements auto-hébergés. Il achemine les requêtes vers OpenAI, Anthropic, Azure, Bedrock et d'autres fournisseurs tout en gérant la bascule, la mise en cache et les contrôles budgétaires.

Benchmarks de performance

Le développeur a mesuré une capacité soutenue de 5 000 requêtes par seconde :

  • Bifrost (Go) : ~11 microsecondes de surcharge par requête
  • LiteLLM (Python) : ~8 millisecondes de surcharge par requête

Cela représente environ 700 fois moins de surcharge.

Comparaison de l'utilisation mémoire

À même débit :

  • Bifrost : ~50 Mo de RAM de base, reste stable sous charge
  • LiteLLM : ~300-400 Mo de base, atteint 800 Mo+ en cas de trafic intense

Le développeur note que l'exécution de LiteLLM à plus de 2 000 RPS nécessite une mise à l'échelle horizontale et des instances importantes, tandis que Bifrost gère 5 000 RPS sur un VPS à 20 $/mois.

Ad

Stabilité sous charge

Les performances de Bifrost restent constantes sous charge, avec la même latence à 100 RPS ou 5 000 RPS. En revanche, LiteLLM devient imprévisible lors des pics de trafic : la variance de latence augmente, la mémoire monte en flèche et les pauses du ramasse-miettes surviennent au pire moment.

Fonctionnalités uniques

Bifrost inclut une passerelle MCP qui connecte plus de 10 serveurs d'outils MCP, gère la découverte, l'espace de noms, les contrôles de santé et le filtrage des outils par requête. LiteLLM ne prend pas en charge MCP.

Déploiement et migration

Le déploiement se fait avec un seul binaire, sans environnements virtuels Python, sans problèmes de dépendances et sans Docker requis. Vous le copiez sur le serveur et vous l'exécutez.

Pour la migration, l'API est compatible avec OpenAI. Vous changez l'URL de base et conservez le code existant, la plupart des migrations prenant moins d'une heure.

Disponibilité open source

Le projet est open source et disponible sur github.com/maximhq/bifrost.

📖 Lire la source complète : r/clawdbot

Ad

👀 See Also

Correction de la perte de mémoire d'OpenClaw avec le plugin Mem0
Tools

Correction de la perte de mémoire d'OpenClaw avec le plugin Mem0

Les agents OpenClaw subissent une perte de mémoire due à la compaction de contexte qui réécrit des fichiers comme MEMORY.md. Le plugin Mem0 résout ce problème en déplaçant la mémoire hors de la fenêtre de contexte avec des fonctionnalités de rappel automatique et de capture automatique.

OpenClawRadar
Pepper MCP Serveur pour l'Interaction et le Débogage du Simulateur iOS
Tools

Pepper MCP Serveur pour l'Interaction et le Débogage du Simulateur iOS

Pepper est un serveur MCP qui injecte une bibliothèque dynamique (dylib) dans les applications du simulateur iOS via DYLD_INSERT_LIBRARIES, permettant une interaction en temps réel, la lecture d'écran, le clic de boutons, l'inspection de variables et la surveillance du trafic réseau via un pont WebSocket.

OpenClawRadar
MCP Server connecte Claude Code/Desktop à Apple Music — Listes de lecture, Recherche, Analyse de profil
Tools

MCP Server connecte Claude Code/Desktop à Apple Music — Listes de lecture, Recherche, Analyse de profil

Un nouveau serveur MCP permet à Claude Code et Claude Desktop de contrôler Apple Music — lister les playlists, rechercher des chansons, créer des playlists et analyser les habitudes d'écoute via le langage naturel.

OpenClawRadar
Résultats de Benchmark : 331 Modèles GGUF Testés sur Mac Mini M4 16 Go
Tools

Résultats de Benchmark : 331 Modèles GGUF Testés sur Mac Mini M4 16 Go

Un benchmark de 331 modèles GGUF sur un Mac Mini M4 avec 16 Go de RAM révèle seulement 11 modèles Pareto-optimaux, tous des architectures Mixture-of-Experts. Les modèles Mixture-of-Experts dominent les performances avec une médiane de 20,0 tokens/seconde contre 4,4 pour les modèles denses.

OpenClawRadar