Benchmark : Gemma4 12B contre Qwen3 8B quantifié sur Mac Mini 24 Go

Comparaison des performances de deux modèles locaux pour OpenClaw
Un développeur a réalisé un test comparatif entre Gemma4 12B et Qwen3:8b-q4_K_M sur un Mac Mini 24GB. Le test a utilisé deux prompts : "expliquer comment fonctionne un carburateur" et "écrire une fonction Python pour détecter les fuites de mémoire". Claude a aidé à écrire une commande pour extraire les mesures de la sortie.
Résultats des benchmarks
Tâche d'explication du carburateur :
- Qwen3:8b-q4_K_M : Évaluation du prompt : 89,8 t/s, Génération : 19,6 t/s
- Gemma4 : Évaluation du prompt : 20,8 t/s, Génération : 27,6 t/s
Tâche de codage Python :
- Qwen3:8b-q4_K_M : Évaluation du prompt : 133,8 t/s, Génération : 18,7 t/s
- Gemma4 : Évaluation du prompt : 26,1 t/s, Génération : 26,1 t/s
Principales conclusions
Qwen3 traite les prompts 4 à 5 fois plus vite que Gemma4, ce qui est important pour OpenClaw en raison des prompts de contexte généralement volumineux envoyés. Gemma4 génère la sortie légèrement plus rapidement. Pour de nombreuses utilisations d'OpenClaw, Qwen3 l'emporte en vitesse. Le développeur note que Gemma4 est un modèle 12B et pourrait produire une sortie légèrement meilleure, bien que cela n'ait pas été testé.
Le développeur exécute diverses tâches sur des modèles locaux, y compris des tâches cron, la surveillance de l'activité, l'indexation de la mémoire, et fait souvent appel à OpenClaw pour lancer des sous-agents exécutant des modèles locaux. Il teste Gemma4 comme modèle local pour toutes ces tâches en arrière-plan, mais ne s'attend pas à remarquer des différences de performance puisque celles-ci s'exécutent en arrière-plan.
📖 Read the full source: r/openclaw
👀 See Also

Exploration de Mistral Voxtral Realtime 4B en C pur pour la reconnaissance vocale
Voxtral.c propose une implémentation en C pur pour le modèle de reconnaissance vocale Voxtral Realtime 4B de Mistral AI, éliminant toute dépendance au-delà de la bibliothèque standard C.

Le pipeline MCP à appel unique réduit l'utilisation des tokens de Claude Code de 74 %.
Un développeur a créé un serveur MCP de moteur contextuel qui fournit à Claude Code un graphe de dépendances des bases de code, réduisant l'utilisation de tokens de 65 % initialement. Un nouveau pipeline en un seul appel réduit encore les tokens de 74 % en éliminant les allers-retours multiples et en dédupliquant les résultats côté serveur.

Personnaliser Claude IA pour un retour amélioré
Ajustez les paramètres de Claude IA pour éviter un accord excessif et favoriser une réflexion plus critique et des retours plus pratiques.

SynapsCAD : Application de bureau open-source pour OpenSCAD avec intégration de l'IA Claude
SynapsCAD est une application de bureau open-source qui combine un éditeur de code OpenSCAD, une fenêtre de visualisation 3D en temps réel et un assistant IA. Développée entièrement en Rust avec Bevy 0.15 et egui, elle prend en charge l'intégration de l'API Claude pour le codage de CAO 3D en langage naturel.