Benchmarks de Performance des LLM Locaux sur Mac Mini avec OpenClaw et LM Studio

Un utilisateur de Reddit a partagé des benchmarks de performance concrets pour l'exécution d'un grand modèle de langage en local sur un Mac Mini avec 32 Go de RAM. La publication aborde la rareté des données de performance spécifiques pour cette configuration matérielle.
Détails techniques de la configuration
L'utilisateur a rapporté la configuration et les résultats suivants :
- Versions logicielles : OpenClaw 2026.3.8, LM Studio 0.4.6+1
- Modèle : Unsloth gpt-oss-20b-Q4_K_S.gguf
- Taille de contexte : 26035
- Métriques de performance : 34 tokens/seconde après la première requête, 0,7 seconde de temps pour le premier token
Configuration du modèle
L'utilisateur a spécifié ces paramètres du modèle (tous par défaut) :
- Délégation GPU = 18
- Taille du pool de threads CPU = 7
- Concurrents maximum = 4
- Nombre d'experts = 4
- Attention flash = activée
La quantification Q4_K_S indique qu'il s'agit d'une version quantifiée sur 4 bits du modèle à 20 milliards de paramètres, ce qui réduit les besoins en mémoire tout en maintenant des performances raisonnables. Les 32 Go de RAM du Mac Mini sont suffisants pour cette taille de modèle avec la longueur de contexte donnée. Le débit de 34 tokens/seconde constitue un benchmark pratique pour les développeurs envisageant des configurations similaires de LLM en local sur du matériel Apple Silicon.
📖 Read the full source: r/openclaw
👀 See Also

AIsbf 0.9.8 ajoute la mise en cache, des améliorations de routage et un support élargi des services d'IA.
AIsbf 0.9.8 est un proxy/routeur API qui expose une interface compatible OpenAI à plusieurs services d'IA. Cette version ajoute la mise en cache Redis, SQLite, MySQL et basée sur des fichiers, un routage sémantique amélioré et une prise en charge complète d'OAuth2 pour les abonnés de Claude.ai, Amazon Kiro-cli, OpenAI Codex et Kilo.ai.

Titre : Claude pour le travail créatif : Connecteurs MCP pour Blender, Adobe, Ableton et plus
Anthropic a publié un ensemble de connecteurs MCP permettant à Claude d'interfacer avec des outils créatifs, notamment Blender, Autodesk Fusion, Adobe Creative Cloud, Ableton Live et Splice, permettant le contrôle en langage naturel, le scripting et l'automatisation des pipelines.

Deblank : Outil pour Supprimer le Formatage du Code afin de Réduire les Tokens des LLM
Deblank est un outil open-source qui supprime la mise en forme du code (indentation, espaces, sauts de ligne) avant de l'envoyer aux LLM, réduisant les tokens d'environ 30 % pour Java/C++ et d'environ 9 % pour Python, avec une latence d'environ 76 ms. Il prend en charge Python, Java, C/C++, C#, JS/TS et Go.

La mise à jour de Hawkeye ajoute l'orchestration de swarm, les tâches à distance et la prise en charge de modèles locaux.
Hawkeye v1.0+ prend désormais en charge l'orchestration d'essaims multi-agents, la mise en file d'attente de tâches à distance et une meilleure intégration avec Ollama/LM Studio. L'enregistreur de vol local-first pour agents IA aide les développeurs à suivre ce qui se passe lorsque les agents travaillent dans des dépôts.