Galería de Arquitecturas LLM: Referencia Visual de Diseños de Modelos

La Galería de Arquitectura LLM de Sebastian Raschka es una colección de figuras arquitectónicas y fichas técnicas de The Big LLM Architecture Comparison y A Dream of Spring for Open-Weight LLMs, centrándose específicamente en paneles de arquitectura. La galería incluye figuras clicables que se amplían para ver detalles, con títulos de modelos que enlazan a secciones correspondientes del artículo.
Detalles Clave de los Modelos
La galería proporciona especificaciones arquitectónicas específicas para numerosos modelos:
- Llama 3 8B: 8B parámetros, lanzado 2024-04-18, decodificador denso con atención GQA y RoPE, sirve como línea base pre-norm
- OLMo 2 7B: 7B parámetros, lanzado 2024-11-25, decodificador denso con MHA y QK-Norm, usa post-norm residual interna en lugar de pre-norm
- DeepSeek V3: 671B parámetros totales (37B activos), lanzado 2024-12-26, decodificador MoE disperso con atención MLA, usa prefijo denso más experto compartido
- DeepSeek R1: 671B parámetros totales (37B activos), lanzado 2025-01-20, decodificador MoE disperso con atención MLA, arquitectura coincide con DeepSeek V3 con entrenamiento orientado al razonamiento
- Gemma 3 27B: 27B parámetros, lanzado 2025-03-11, decodificador denso con GQA y QK-Norm, usa proporción de atención 5:1 ventana deslizante/global
- Mistral Small 3.1 24B: 24B parámetros, lanzado 2025-03-18, decodificador denso con GQA estándar, diseño centrado en latencia con caché KV más pequeño
- Llama 4 Maverick: 400B parámetros totales (17B activos), lanzado 2025-04-05, decodificador MoE disperso con atención GQA, alterna bloques densos y MoE
- Qwen3 235B-A22B: 235B parámetros totales (22B activos), lanzado 2025-04-28, decodificador MoE disperso con GQA y QK-Norm, optimizado para eficiencia de servicio sin experto compartido
- Qwen3 32B: 32B parámetros, lanzado 2025-04-28, decodificador denso con GQA y QK-Norm, pila densa de referencia Qwen con 8 cabezas KV
- Qwen3 4B: 4B parámetros, lanzado 2025-04-28, decodificador denso con GQA y QK-Norm, pila compacta con vocabulario de 151k
- Qwen3 8B: 8B parámetros, lanzado 2025-04-28, decodificador denso con GQA y QK-Norm, pila densa de referencia Qwen3 con 8 cabezas KV
- SmolLM3 3B: 3B parámetros, lanzado 2025-06-19, decodificador denso con GQA, experimenta con capas periódicas NoPE
Características Prácticas
La galería incluye un rastreador de problemas para informar fichas técnicas inexactas, arquitecturas mal etiquetadas o enlaces rotos. Una versión de póster físico está disponible a través de Zazzle con una exportación de alta resolución a 14570 x 12490 píxeles (archivo PNG de 56 MB, 182 megapíxeles).
Para desarrolladores que trabajan con agentes de codificación de IA, este recurso proporciona detalles arquitectónicos concretos que pueden informar la selección de modelos, decisiones de ajuste fino y optimización del rendimiento. El formato de comparación lado a lado facilita la comprensión de las compensaciones entre diferentes elecciones arquitectónicas.
📖 Read the full source: HN LLM Tools
👀 Ver también

Desarrollador comparte herramientas CLI que funcionan bien con Claude Code.
Un desarrollador cambió de MCPs a CLIs para trabajar con Claude Code, encontrando que Claude maneja comandos CLI de manera efectiva debido a su entrenamiento en scripts de shell y documentación. Compartió los CLIs específicos que usa diariamente, incluyendo gh, ripgrep, stripe, supabase, vercel, sentry-cli y neon.

Revisar: Editor de IA Construido con Herramientas de Codificación Agéntica y Y.js CRDT
Revise es un editor de IA para documentos construido desde cero durante 10 meses utilizando herramientas de codificación agentica, con un motor de procesador de textos personalizado y una capa de renderizado que solo utiliza Y.js para la pila CRDT. Integra múltiples modelos de IA, incluidas variantes de GPT-5.4 y modelos Claude para corrección y revisión.

Biblioteca de Flujos de Trabajo Claude: 10 Flujos de Trabajo de IA Completos para Usuarios No Técnicos
Un repositorio gratuito de GitHub ofrece 10 flujos de trabajo completos de IA para usuarios de Claude sin conocimientos técnicos, incluyendo sistemas de estudio, investigación, escritura, negocios, creación de contenido, toma de decisiones, aprendizaje, búsqueda de empleo, productividad y planificación de vida.

Desarrollador Prueba Qwen3.5 27B frente a Modelos Más Grandes para Tareas de Programación Local
Un desarrollador probó múltiples modelos Qwen3.5 y Nemotron, encontrando que Qwen3.5-27B-GGUF:UD-Q6_K_XL funciona bien para tareas de desarrollo en hardware existente de 2x RTX 3090, con 803 pp y 25 tg/s en contexto de 256k en vast.ai.