Interface de chatbot de página única para executar localmente o Gemma 4 26B A4B

Um desenvolvedor criou uma interface de chatbot em página única HTML projetada para funcionar com o Gemma 4 26B A4B rodando localmente. A implementação se conecta à API do LM Studio e fornece uma interface completa de chatbot em um único arquivo HTML.
Implementação Técnica
O sistema executa o Gemma 4 26B A4B localmente com uma janela de contexto de 32K, alcançando 50-65 tokens por segundo. O modelo é distribuído entre duas GPUs: uma 7900 XT e uma 3060 Ti.
Recursos da Interface
- Suporte completo a streaming para respostas em tempo real
- Renderização de Markdown para saída formatada
- Seletor de modelo para alternar entre modelos disponíveis
- Seis controles deslizantes de parâmetros para ajustar o comportamento do modelo
- Edição de mensagens com capacidade de ramificação do histórico
- Função de regeneração para recriar respostas
- Botão de abortar para interromper a geração durante o streaming
- Suporte a prompt do sistema para instruções personalizadas
Detalhes de Desenvolvimento
O desenvolvedor observa que o Claude foi usado para corrigir dois bugs de DOM que o Gemma não conseguiu resolver. Todo o restante do trabalho de desenvolvimento foi concluído usando o Gemma 4. O projeto está disponível no GitHub para exame e uso.
Esse tipo de interface de página única é particularmente útil para desenvolvedores que trabalham com LLMs locais e desejam uma interface de chat leve e personalizável sem a complexidade de aplicações web elaboradas. A integração com a API do LM Studio a torna compatível com vários modelos locais além do Gemma.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Yozora-fm: Visualização Interativa da Galáxia de Música Anime
Yozora-fm é uma visualização interativa onde cada estrela representa uma música de abertura ou encerramento de anime, com mais de 9.000 faixas mapeadas por gênero e época. Os usuários podem clicar nas estrelas para reproduzir vídeos ou explorar a interface galáctica.

quorum: Ferramenta de Governança de Código com IA Aplica Revisão Independente de Modelos
quorum é uma camada de governança para desenvolvimento assistido por IA que aplica um protocolo de consenso exigindo que o código seja revisado de forma independente por um modelo diferente antes de ser confirmado. Inclui três portões estruturais que bloqueiam o progresso: portões de auditoria, retrospectiva e qualidade.

depct: Servidor MCP Fornece Análise e Documentação em Tempo Real para Claude
depct é um servidor MCP que instrumenta aplicações Node.js para capturar dados de runtime, gerando documentação estruturada com níveis de confiança que o Claude pode acessar antes de codificar. A ferramenta atualiza a documentação automaticamente após o Claude fazer alterações.
AIttache: Um Servidor MCP Somente Leitura Que Não Pode Destruir Sua Produção
AIttache é um servidor MCP com mais de 25 conectores somente leitura (terminal, servidores, clima, Steam) que fisicamente não pode modificar nada — construído para dar às LLMs contexto de logs sem autonomia.