Gemma 4 26B A4B Locally: 65 Tokens/s via Dual GPU Chatbot UI

Ein Entwickler hat eine Chatbot-Oberfläche auf einer einzelnen HTML-Seite erstellt, die für die Verwendung mit lokal laufendem Gemma 4 26B A4B konzipiert ist. Die Implementierung verbindet sich mit der API von LM Studio und bietet eine vollständige Chatbot-Oberfläche in einer einzigen HTML-Datei.

Technische Umsetzung

Das System läuft mit Gemma 4 26B A4B lokal mit einem 32K-Kontextfenster und erreicht 50-65 Token pro Sekunde. Das Modell ist auf zwei GPUs aufgeteilt: eine 7900 XT und eine 3060 Ti.

Oberflächenfunktionen

Vollständige Streaming-Unterstützung für Echtzeit-Antworten
Markdown-Rendering für formatierte Ausgaben
Modellauswahl zum Wechseln zwischen verfügbaren Modellen
Sechs Parameter-Schieberegler zur Feinabstimmung des Modellverhaltens
Nachrichtenbearbeitung mit Verzweigungsmöglichkeiten im Verlauf
Neugenerierungsfunktion zum Erneuern von Antworten
Abbruch-Taste zum Stoppen der Generierung während des Streamings
System-Prompt-Unterstützung für benutzerdefinierte Anweisungen

Entwicklungsdetails

Der Entwickler merkt an, dass Claude verwendet wurde, um zwei DOM-Fehler zu beheben, die Gemma nicht lösen konnte. Alle anderen Entwicklungsarbeiten wurden mit Gemma 4 abgeschlossen. Das Projekt ist auf GitHub zur Prüfung und Nutzung verfügbar.

Diese Art von Einzelseiten-Oberfläche ist besonders nützlich für Entwickler, die mit lokalen LLMs arbeiten und eine leichtgewichtige, anpassbare Chat-Oberfläche ohne den Aufwand komplexer Webanwendungen wünschen. Die Integration mit der API von LM Studio macht sie mit verschiedenen lokalen Modellen kompatibel, nicht nur mit Gemma.

📖 Read the full source: r/LocalLLaMA

Einseitige Chatbot-Oberfläche für lokal laufendes Gemma 4 26B A4B

Technische Umsetzung

Oberflächenfunktionen

Entwicklungsdetails

👀 Siehe auch

Rekursiver Selbstverbesserungsrahmen für KI-Codierungsagenten mit Claude Code

Relay: Open-Source-Steuerungsebene für OpenClaw-KI-Agenten

Sherlock: Apple-Entwicklerdokumentation als lokales MCP für Claude Code

Skill Scaffolder: Erstellen Sie OpenClaw-Fähigkeiten ohne Code zu schreiben