Gemma 4 26B A4B : Chatbot local en HTML unique

Un développeur a créé une interface de chatbot sur une seule page HTML conçue pour fonctionner avec Gemma 4 26B A4B exécuté localement. L'implémentation se connecte à l'API de LM Studio et fournit une interface complète de chatbot dans un seul fichier HTML.

Implémentation technique

Le système exécute Gemma 4 26B A4B localement avec une fenêtre de contexte de 32K, atteignant 50-65 tokens par seconde. Le modèle est réparti entre deux GPU : un 7900 XT et un 3060 Ti.

Fonctionnalités de l'interface

Support complet du streaming pour des réponses en temps réel
Rendu Markdown pour une sortie formatée
Sélecteur de modèle pour basculer entre les modèles disponibles
Six curseurs de paramètres pour affiner le comportement du modèle
Édition des messages avec capacités de branchement de l'historique
Fonction de régénération pour régénérer les réponses
Bouton d'interruption pour arrêter la génération en cours de streaming
Support des invites système pour des instructions personnalisées

Détails du développement

Le développeur note que Claude a été utilisé pour corriger deux bugs DOM que Gemma n'a pas pu résoudre. Tout le reste du travail de développement a été réalisé en utilisant Gemma 4. Le projet est disponible sur GitHub pour examen et utilisation.

Ce type d'interface à page unique est particulièrement utile pour les développeurs travaillant avec des LLM locaux qui souhaitent une interface de chat légère et personnalisable sans la complexité des applications web complexes. L'intégration avec l'API de LM Studio la rend compatible avec divers modèles locaux au-delà de Gemma.

📖 Lire la source complète : r/LocalLLaMA

Interface chatbot monopage pour Gemma 4 26B A4B fonctionnant localement

Implémentation technique

Fonctionnalités de l'interface

Détails du développement

👀 See Also

Calmkeep : Une couche de continuité externe pour contrer la dérive des LLM dans les sessions prolongées

Exécuter Google Gemma 4 26B-A4B en local avec LM Studio 0.4.0 en mode CLI sans interface

Statespace : Créez des applications Web interactives pour les agents OpenClaw avec Markdown

Biais Logit Toroïdal : Une Astuce Simple au Moment de l'Inférence Réduit les Hallucinations de 40 %