Bifrost LLM Gateway : 11 microsecondes de surcoût, binaire unique en Go

Qu'est-ce que Bifrost
Bifrost est un proxy LLM prêt à l'emploi écrit en Go, conçu spécifiquement pour les environnements auto-hébergés. Il achemine les requêtes vers OpenAI, Anthropic, Azure, Bedrock et d'autres fournisseurs tout en gérant la bascule, la mise en cache et les contrôles budgétaires.
Benchmarks de performance
Le développeur a mesuré une capacité soutenue de 5 000 requêtes par seconde :
- Bifrost (Go) : ~11 microsecondes de surcharge par requête
- LiteLLM (Python) : ~8 millisecondes de surcharge par requête
Cela représente environ 700 fois moins de surcharge.
Comparaison de l'utilisation mémoire
À même débit :
- Bifrost : ~50 Mo de RAM de base, reste stable sous charge
- LiteLLM : ~300-400 Mo de base, atteint 800 Mo+ en cas de trafic intense
Le développeur note que l'exécution de LiteLLM à plus de 2 000 RPS nécessite une mise à l'échelle horizontale et des instances importantes, tandis que Bifrost gère 5 000 RPS sur un VPS à 20 $/mois.
Stabilité sous charge
Les performances de Bifrost restent constantes sous charge, avec la même latence à 100 RPS ou 5 000 RPS. En revanche, LiteLLM devient imprévisible lors des pics de trafic : la variance de latence augmente, la mémoire monte en flèche et les pauses du ramasse-miettes surviennent au pire moment.
Fonctionnalités uniques
Bifrost inclut une passerelle MCP qui connecte plus de 10 serveurs d'outils MCP, gère la découverte, l'espace de noms, les contrôles de santé et le filtrage des outils par requête. LiteLLM ne prend pas en charge MCP.
Déploiement et migration
Le déploiement se fait avec un seul binaire, sans environnements virtuels Python, sans problèmes de dépendances et sans Docker requis. Vous le copiez sur le serveur et vous l'exécutez.
Pour la migration, l'API est compatible avec OpenAI. Vous changez l'URL de base et conservez le code existant, la plupart des migrations prenant moins d'une heure.
Disponibilité open source
Le projet est open source et disponible sur github.com/maximhq/bifrost.
📖 Lire la source complète : r/clawdbot
👀 See Also

Correction de la perte de mémoire d'OpenClaw avec le plugin Mem0
Les agents OpenClaw subissent une perte de mémoire due à la compaction de contexte qui réécrit des fichiers comme MEMORY.md. Le plugin Mem0 résout ce problème en déplaçant la mémoire hors de la fenêtre de contexte avec des fonctionnalités de rappel automatique et de capture automatique.

Pepper MCP Serveur pour l'Interaction et le Débogage du Simulateur iOS
Pepper est un serveur MCP qui injecte une bibliothèque dynamique (dylib) dans les applications du simulateur iOS via DYLD_INSERT_LIBRARIES, permettant une interaction en temps réel, la lecture d'écran, le clic de boutons, l'inspection de variables et la surveillance du trafic réseau via un pont WebSocket.

MCP Server connecte Claude Code/Desktop à Apple Music — Listes de lecture, Recherche, Analyse de profil
Un nouveau serveur MCP permet à Claude Code et Claude Desktop de contrôler Apple Music — lister les playlists, rechercher des chansons, créer des playlists et analyser les habitudes d'écoute via le langage naturel.

Résultats de Benchmark : 331 Modèles GGUF Testés sur Mac Mini M4 16 Go
Un benchmark de 331 modèles GGUF sur un Mac Mini M4 avec 16 Go de RAM révèle seulement 11 modèles Pareto-optimaux, tous des architectures Mixture-of-Experts. Les modèles Mixture-of-Experts dominent les performances avec une médiane de 20,0 tokens/seconde contre 4,4 pour les modèles denses.