Galeria de Arquitetura de LLM: Referência Visual para Projetos de Modelos

A Galeria de Arquitetura de LLMs de Sebastian Raschka é uma coleção de figuras de arquitetura e fichas técnicas de The Big LLM Architecture Comparison e A Dream of Spring for Open-Weight LLMs, focando especificamente em painéis de arquitetura. A galeria inclui figuras clicáveis que ampliam para detalhes, com títulos dos modelos vinculados às seções correspondentes dos artigos.
Detalhes Principais dos Modelos
A galeria fornece especificações arquiteturais específicas para diversos modelos:
- Llama 3 8B: 8B parâmetros, lançado em 2024-04-18, decodificador denso com atenção GQA e RoPE, serve como linha de base pré-norm
- OLMo 2 7B: 7B parâmetros, lançado em 2024-11-25, decodificador denso com MHA e QK-Norm, usa pós-norma residual interna em vez de pré-norma
- DeepSeek V3: 671B parâmetros totais (37B ativos), lançado em 2024-12-26, decodificador MoE esparso com atenção MLA, usa prefixo denso mais especialista compartilhado
- DeepSeek R1: 671B parâmetros totais (37B ativos), lançado em 2025-01-20, decodificador MoE esparso com atenção MLA, arquitetura igual ao DeepSeek V3 com treinamento orientado para raciocínio
- Gemma 3 27B: 27B parâmetros, lançado em 2025-03-11, decodificador denso com GQA e QK-Norm, usa proporção de atenção 5:1 janela deslizante/global
- Mistral Small 3.1 24B: 24B parâmetros, lançado em 2025-03-18, decodificador denso com GQA padrão, design focado em latência com cache KV menor
- Llama 4 Maverick: 400B parâmetros totais (17B ativos), lançado em 2025-04-05, decodificador MoE esparso com atenção GQA, alterna blocos densos e MoE
- Qwen3 235B-A22B: 235B parâmetros totais (22B ativos), lançado em 2025-04-28, decodificador MoE esparso com GQA e QK-Norm, otimizado para eficiência de serviço sem especialista compartilhado
- Qwen3 32B: 32B parâmetros, lançado em 2025-04-28, decodificador denso com GQA e QK-Norm, referência da pilha densa Qwen com 8 cabeças KV
- Qwen3 4B: 4B parâmetros, lançado em 2025-04-28, decodificador denso com GQA e QK-Norm, pilha compacta com vocabulário de 151k
- Qwen3 8B: 8B parâmetros, lançado em 2025-04-28, decodificador denso com GQA e QK-Norm, referência da pilha densa Qwen3 com 8 cabeças KV
- SmolLM3 3B: 3B parâmetros, lançado em 2025-06-19, decodificador denso com GQA, experimenta com camadas periódicas NoPE
Recursos Práticos
A galeria inclui um rastreador de problemas para relatar fichas técnicas imprecisas, arquiteturas rotuladas incorretamente ou links quebrados. Uma versão física de pôster está disponível via Zazzle com uma exportação de alta resolução de 14570 x 12490 pixels (arquivo PNG de 56 MB, 182 megapixels).
Para desenvolvedores que trabalham com agentes de codificação de IA, este recurso fornece detalhes arquiteturais concretos que podem informar a seleção de modelos, decisões de ajuste fino e otimização de desempenho. O formato de comparação lado a lado facilita a compreensão das compensações entre diferentes escolhas arquiteturais.
📖 Read the full source: HN LLM Tools
👀 See Also

Claude Code v2.1.142: Novas flags de agentes claude, Opus 4.7 padrão e correções de bugs
Claude Code v2.1.142 adiciona oito novas flags para configurar sessões em segundo plano, alterna o modo rápido para Opus 4.7 por padrão e corrige mais de uma dúzia de bugs, incluindo timeout de ferramenta MCP, problemas do daemon durante suspensão/despertar no macOS e deadlocks em unidades de rede no Windows.

MephisQuiz: Plataforma Gratuita de Quiz Baseada em Cenários para Avaliação de Funções de Engenharia
Um profissional de SRE criou o MephisQuiz, uma plataforma gratuita de quiz com mais de 860 perguntas baseadas em cenários, abrangendo 4 trilhas de funções de engenharia. A plataforma utiliza dificuldade adaptativa, fornece análises detalhadas por tópico e foi desenvolvida usando o Claude AI como programador par.

Estrutura de Scaffold Resolve Problemas de Memória e Fluxo de Trabalho do Código Claude
Scaffold é uma estrutura de 17 habilidades para Claude Code que fornece memória persistente, aplicação de decisões e portões de fluxo de trabalho. Ele usa um sistema de roteamento de modelo de 3 camadas para economia de tokens e pode ser instalado através do menu de plugins do Claude Code.

Claude Code LSP: Habilitando o Protocolo de Servidor de Linguagem para Navegação de Código Mais Rápida e Precis
O Claude Code é enviado sem o LSP ativado por padrão, mas ativá-lo transforma a navegação de código de buscas grep de 30-60 segundos para consultas de 50ms com 100% de precisão. A configuração requer uma flag descoberta através de uma issue do GitHub, em vez da documentação oficial.