Gemma 4 26B A4B local: chatbot HTML con 32K contexto

Un desarrollador ha creado una interfaz de chatbot de una sola página HTML diseñada para funcionar con Gemma 4 26B A4B ejecutándose localmente. La implementación se conecta a la API de LM Studio y proporciona una interfaz de chatbot completa en un solo archivo HTML.

Implementación Técnica

El sistema ejecuta Gemma 4 26B A4B localmente con una ventana de contexto de 32K, logrando 50-65 tokens por segundo. El modelo está distribuido entre dos GPUs: una 7900 XT y una 3060 Ti.

Características de la Interfaz

Soporte completo de transmisión para respuestas en tiempo real
Renderizado de Markdown para salida formateada
Selector de modelos para cambiar entre modelos disponibles
Seis controles deslizantes de parámetros para ajustar el comportamiento del modelo
Edición de mensajes con capacidades de bifurcación del historial
Función de regenerar para regenerar respuestas
Botón de abortar para detener la generación durante la transmisión
Soporte de instrucciones personalizadas mediante prompts del sistema

Detalles de Desarrollo

El desarrollador señala que se utilizó Claude para corregir dos errores del DOM que Gemma no pudo resolver. Todo el resto del trabajo de desarrollo se completó utilizando Gemma 4. El proyecto está disponible en GitHub para su examen y uso.

Este tipo de interfaz de una sola página es particularmente útil para desarrolladores que trabajan con LLMs locales y desean una interfaz de chat liviana y personalizable sin la complejidad de aplicaciones web complejas. La integración con la API de LM Studio la hace compatible con varios modelos locales más allá de solo Gemma.

📖 Read the full source: r/LocalLLaMA

Interfaz de chatbot de una sola página para ejecutar localmente Gemma 4 26B A4B

Implementación Técnica

Características de la Interfaz

Detalles de Desarrollo

👀 Ver también

Torrix: Observabilidad de LLM autoalojada sin Postgres ni Redis

Solución Alternativa para la Brecha de Migración de Proyectos de ChatGPT: Exportar Scripts y Prompts

Claude Ops: Panel de navegación para el estado en vivo y seguimiento de subagentes de Claude Code

Chapper: Cliente nativo de iOS para LM Studio, Ollama y modelos locales compatibles con OpenAI