Galería de Arquitecturas LLM: 60+ Modelos en Referencia Visual

La Galería de Arquitectura LLM de Sebastian Raschka es una colección de figuras arquitectónicas y fichas técnicas de The Big LLM Architecture Comparison y A Dream of Spring for Open-Weight LLMs, centrándose específicamente en paneles de arquitectura. La galería incluye figuras clicables que se amplían para ver detalles, con títulos de modelos que enlazan a secciones correspondientes del artículo.

Detalles Clave de los Modelos

La galería proporciona especificaciones arquitectónicas específicas para numerosos modelos:

Llama 3 8B: 8B parámetros, lanzado 2024-04-18, decodificador denso con atención GQA y RoPE, sirve como línea base pre-norm
OLMo 2 7B: 7B parámetros, lanzado 2024-11-25, decodificador denso con MHA y QK-Norm, usa post-norm residual interna en lugar de pre-norm
DeepSeek V3: 671B parámetros totales (37B activos), lanzado 2024-12-26, decodificador MoE disperso con atención MLA, usa prefijo denso más experto compartido
DeepSeek R1: 671B parámetros totales (37B activos), lanzado 2025-01-20, decodificador MoE disperso con atención MLA, arquitectura coincide con DeepSeek V3 con entrenamiento orientado al razonamiento
Gemma 3 27B: 27B parámetros, lanzado 2025-03-11, decodificador denso con GQA y QK-Norm, usa proporción de atención 5:1 ventana deslizante/global
Mistral Small 3.1 24B: 24B parámetros, lanzado 2025-03-18, decodificador denso con GQA estándar, diseño centrado en latencia con caché KV más pequeño
Llama 4 Maverick: 400B parámetros totales (17B activos), lanzado 2025-04-05, decodificador MoE disperso con atención GQA, alterna bloques densos y MoE
Qwen3 235B-A22B: 235B parámetros totales (22B activos), lanzado 2025-04-28, decodificador MoE disperso con GQA y QK-Norm, optimizado para eficiencia de servicio sin experto compartido
Qwen3 32B: 32B parámetros, lanzado 2025-04-28, decodificador denso con GQA y QK-Norm, pila densa de referencia Qwen con 8 cabezas KV
Qwen3 4B: 4B parámetros, lanzado 2025-04-28, decodificador denso con GQA y QK-Norm, pila compacta con vocabulario de 151k
Qwen3 8B: 8B parámetros, lanzado 2025-04-28, decodificador denso con GQA y QK-Norm, pila densa de referencia Qwen3 con 8 cabezas KV
SmolLM3 3B: 3B parámetros, lanzado 2025-06-19, decodificador denso con GQA, experimenta con capas periódicas NoPE

Características Prácticas

La galería incluye un rastreador de problemas para informar fichas técnicas inexactas, arquitecturas mal etiquetadas o enlaces rotos. Una versión de póster físico está disponible a través de Zazzle con una exportación de alta resolución a 14570 x 12490 píxeles (archivo PNG de 56 MB, 182 megapíxeles).

Para desarrolladores que trabajan con agentes de codificación de IA, este recurso proporciona detalles arquitectónicos concretos que pueden informar la selección de modelos, decisiones de ajuste fino y optimización del rendimiento. El formato de comparación lado a lado facilita la comprensión de las compensaciones entre diferentes elecciones arquitectónicas.

📖 Read the full source: HN LLM Tools

Galería de Arquitecturas LLM: Referencia Visual de Diseños de Modelos

Detalles Clave de los Modelos

Características Prácticas

👀 Ver también

Génesis del Libro de Código Abierto: 20 Habilidades de Claude para la Escritura Autónoma de Libros

Automatizando las Notas de Lanzamiento de Claude Desktop desde Aplicaciones Electron Minificadas

Femtobot: Agente Rust Eficiente para Entornos de Bajo Recurso

La Plantilla de Razonamiento Estructurado Mejora la Precisión de la Revisión de Código por IA