Lightning MLX : Moteur IA local rapide pour usage agentique sur Apple Silicon délivre 220 tok/s sur Qwen 35B-A3B

Un nouveau moteur d'inférence open source pour Apple Silicon appelé Lightning MLX revendique être le moteur IA local le plus rapide, spécialement optimisé pour les workflows agentiques — agents de codage, appels d'outils et tâches à faible latence. Le projet est disponible sur GitHub à l'adresse samuelfaj/lightning-mlx.
Résultats des benchmarks
L'auteur a testé sur un MacBook Max M5 avec 128 Go de RAM et a rapporté les vitesses de génération de tokens suivantes :
- Qwen3.6-27B : 40,67 tok/s
- Qwen3.6-35B-A3B : 220,86 tok/s
Ces résultats suggèrent que le moteur est particulièrement efficace pour l'architecture mixture-of-experts utilisée dans le modèle Qwen3.6-35B-A3B, qui n'active qu'un sous-ensemble de paramètres par token.
Fonctionnalités clés
- Optimisé pour les cas d'usage agentiques à faible latence — génération de code, appels d'outils et boucles d'inférence rapides
- Inclut une configuration prédéfinie appelée MTPLX (valeurs d'échantillonnage personnalisées) ; l'auteur sollicite des retours pour savoir si ces valeurs par défaut sont adaptées à un usage en production
- Open source sous licence MIT (probablement) sur GitHub
Demandes de retours
Le créateur demande activement à la communauté :
- De meilleures conceptions de benchmarks pour les agents de codage locaux
- Des avis sur les valeurs par défaut du preset MTPLX
- Des résultats de test sur d'autres configurations Apple Silicon (par exemple, M1, M2, M3, M4, différentes tailles de RAM)
À qui cela s'adresse
Développeurs exécutant des LLM locaux sur Apple Silicon pour des workflows de codage agentiques ayant besoin d'une vitesse d'inférence maximale.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Utiliser pre-commit pour améliorer la qualité et la sécurité du code généré par l'IA
Un développeur partage sa configuration pre-commit pour les projets Go et Java, utilisant des outils comme golangci-lint, govulncheck et checkov pour détecter les vulnérabilités et les problèmes de qualité dans le code généré par l'IA avant le commit.

Orc : L'outil d'orchestration de codage multi-agent ajoute des fonctionnalités de planification et de notification
Orc est un outil open-source qui orchestre des agents d'IA de codage à travers les projets avec une interface TUI locale. La dernière version ajoute la planification comme phase de première classe, des systèmes de notification pour l'intervention humaine et des crochets de cycle de vie en langage naturel.

Utilisation du mode code MCP pour une recherche de mots-clés efficace avec Claude
Un développeur a créé un serveur MCP permettant à Claude d'effectuer des recherches de mots-clés autonomes en utilisant un modèle Code Mode, réduisant les jetons de définition d'outils de milliers à environ 1 000 avec seulement deux outils : recherche et exécution.

Kelet : Analyse Automatisée des Causes Racines pour Agents IA
Kelet est un service qui analyse automatiquement les défaillances des agents d'IA en production en regroupant les traces et signaux pour identifier les causes racines et suggérer des correctifs. Il s'intègre via des SDK Python/TypeScript ou une compétence d'installation et est actuellement gratuit pendant la phase bêta.