Gemma4 26B-A4B : 145 Tokens/s sur RTX 4090 avec Recherche Web

Performances et fonctionnalités de Gemma4 26B-A4B

Le modèle gemma-4-26B-A4B démontre de solides performances pour une utilisation locale, la source rapportant des vitesses d'environ 145 tokens par seconde lors de l'exécution sur une carte graphique RTX 4090. Cette combinaison de capacités et de vitesse le rend adapté aux applications locales réactives.

Caractéristiques principales de la source

Modèle : gemma-4-26B-A4B
Performance : ~145 t/s (tokens par seconde) sur RTX 4090
Intégration : Prise en charge de la recherche web MCP (Model Context Protocol)
Multimodal : Prise en charge d'images incluse
Plateformes : Configuration documentée pour une utilisation sur Mac et iPhone

La source mentionne que l'expérience peut être améliorée avec des astuces simples et un court prompt système, bien que les détails spécifiques de ces optimisations ne soient pas fournis dans l'extrait. L'auteur a documenté son processus de configuration complet dans un article de blog qui couvre la configuration et l'utilisation sur plusieurs appareils.

Pour les développeurs intéressés par la mise en œuvre de cette configuration, les détails complets de configuration, les prompts système et les techniques d'optimisation sont disponibles dans l'article de blog référencé à l'URL fournie.

📖 Read the full source: r/LocalLLaMA

Gemma4 26B-A4B Offre des Performances Locales Rapides avec Recherche Web et Prise en Charge des Images

Performances et fonctionnalités de Gemma4 26B-A4B

Caractéristiques principales de la source

👀 See Also

Claudraband : Wrapper de Terminal pour Sessions de Code Persistantes de Claude

SpruceChat exécute un LLM de 0,5 milliard de paramètres directement sur les consoles portables Miyoo grâce à llama.cpp.

Phaselock : Un système de contrôle d'agent IA inspiré des techniques parentales

RTX 5060 Ti 16GB : Benchmarks des LLM locaux : Les modèles 30B restent en tête pour le codage